web-crawler - 爬虫不会从网站根目录获取 Robots.txt 文件，而是从网络根目录获取

Question

我已经阻止爬虫使用 robots.txt 爬取我的网络根目录（在我的例子中是 /var/www/）。我在 /var/www/ 中有 robots.txt，其中包含以下行： Disallow /

现在我需要我的 Web 根目录 (/var/www/mysite.com) 的一个子目录来让爬虫爬取。我已在该目录中添加了 robots.txt，并在 apache 中添加了虚拟主机以允许抓取此 mysite.com。但是爬虫仍然从我的网络根目录（/var/www）而不是（/var/www/mysite.com）获取robots.txt。

提前感谢您的帮助。

score 1 · Accepted Answer

您只需指定一个robots.txt进入您的根目录。

更多信息可以在官方文档中找到

放在哪里

简短的回答：在您的 Web 服务器的顶级目录中。

更长的答案：

当机器人在“/robots.txt”文件中查找 URL 时，它会从 URL 中删除路径组件（从第一个单斜杠开始的所有内容），并将“/robots.txt”放在它的位置。

例如，对于“ http://www.example.com/shop/index.html ” ，它将删除“/shop/index.html”，并将其替换为“/robots.txt”，最终会得到“ http://www.example.com/robots.txt ”。

同样来自同一页面（在底部），它给出了一个仅允许某个网页的示例：

排除除一个以外的所有文件

这目前有点尴尬，因为没有“允许”字段。

简单的方法是将所有不允许的文件放到一个单独的目录中，比如“stuff”，然后将一个文件保留在该目录之上的级别：

User-agent: *
Disallow: /~joe/stuff/

或者，您可以明确禁止所有不允许的页面：

User-agent: * 
Disallow: /~joe/junk.html 
Disallow: /~joe/foo.html 
Disallow: /~joe/bar.html

web-crawler - 爬虫不会从网站根目录获取 Robots.txt 文件，而是从网络根目录获取

1 回答 1

放在哪里

排除除一个以外的所有文件

Related

Reference