python - Robots.txt 和允许？

Question

所以我是网络爬虫的新手，我无法理解特定的 robots.txt 文件。在这种情况下，这就是网站所拥有的：

User-agent: *

Allow: /

Sitemap: sitemapURLHere

所以我查了一下/ here，发现它适用于任何路径。那么这是否意味着该网站允许对所有页面进行爬取呢？但是，当我尝试使用scrapy对sitemap.xml（或另一个站点URL）链接进行基本爬网时，即

scrapy shell siteURL

我收到了403 HTTP回复，我从这个链接中假设这意味着该网站不希望您抓取...那么该网站的确切robots.txt含义是什么？

编辑我正在谈论的文件是here

score 0 · Accepted Answer

这意味着“任何用户代理（机器人）都可以访问所有内容”和“在与“相同的目录中有一个名为 sitemapURLHere 的站点地图可用robots.txt。

REM： arobots.txt只是一组指示，而不是强制访问限制的手段。如果你不能报废，那不是因为它robots.txt本身。

1 回答 1