0

我已经阻止爬虫使用 robots.txt 爬取我的网络根目录(在我的例子中是 /var/www/)。我在 /var/www/ 中有 robots.txt,其中包含以下行: Disallow /

现在我需要我的 Web 根目录 (/var/www/mysite.com) 的一个子目录来让爬虫爬取。我已在该目录中添加了 robots.txt,并在 apache 中添加了虚拟主机以允许抓取此 mysite.com。但是爬虫仍然从我的网络根目录(/var/www)而不是(/var/www/mysite.com)获取robots.txt。

提前感谢您的帮助。

4

1 回答 1

1

您只需指定一个robots.txt进入您的根目录。

更多信息可以在官方文档中找到

放在哪里

简短的回答:在您的 Web 服务器的顶级目录中。

更长的答案:

当机器人在“/robots.txt”文件中查找 URL 时,它会从 URL 中删除路径组件(从第一个单斜杠开始的所有内容),并将“/robots.txt”放在它的位置。

例如,对于“ http://www.example.com/shop/index.html ” ,它将删除“/shop/index.html”,并将其替换为“/robots.txt”,最终会得到“ http://www.example.com/robots.txt ”。

同样来自同一页面(在底部),它给出了一个仅允许某个网页的示例:

排除除一个以外的所有文件

这目前有点尴尬,因为没有“允许”字段。

简单的方法是将所有不允许的文件放到一个单独的目录中,比如“stuff”,然后将一个文件保留在该目录之上的级别:

User-agent: *
Disallow: /~joe/stuff/

或者,您可以明确禁止所有不允许的页面:

User-agent: * 
Disallow: /~joe/junk.html 
Disallow: /~joe/foo.html 
Disallow: /~joe/bar.html
于 2013-05-10T14:38:45.063 回答