1

所以我是网络爬虫的新手,我无法理解特定的 robots.txt 文件。在这种情况下,这就是网站所拥有的:

User-agent: *

Allow: /

Sitemap: sitemapURLHere 

所以我查了一下/ here,发现它适用于任何路径。那么这是否意味着该网站允许对所有页面进行爬取呢?但是,当我尝试使用scrapy对sitemap.xml(或另一个站点URL)链接进行基本爬网时,即

scrapy shell siteURL 

我收到了403 HTTP回复,我从这个链接中假设这意味着该网站不希望您抓取...那么该网站的确切robots.txt含义是什么?

编辑我正在谈论的文件是here

4

1 回答 1

0

这意味着“任何用户代理(机器人)都可以访问所有内容”和“在与“相同的目录中有一个名为 sitemapURLHere 的站点地图可用robots.txt

REM: arobots.txt只是一组指示,而不是强制访问限制的手段。如果你不能报废,那不是因为它robots.txt本身。

于 2018-02-01T13:30:15.463 回答