所以我是网络爬虫的新手,我无法理解特定的 robots.txt 文件。在这种情况下,这就是网站所拥有的:
User-agent: *
Allow: /
Sitemap: sitemapURLHere
所以我查了一下/
here,发现它适用于任何路径。那么这是否意味着该网站允许对所有页面进行爬取呢?但是,当我尝试使用scrapy对sitemap.xml(或另一个站点URL)链接进行基本爬网时,即
scrapy shell siteURL
我收到了403 HTTP
回复,我从这个链接中假设这意味着该网站不希望您抓取...那么该网站的确切robots.txt
含义是什么?
编辑我正在谈论的文件是here