Python爬虫:根据robots.txt判断URL是否允许抓取

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

相关文章

发表评论

电子邮件地址不会被公开。 必填项已用*标注