-1

我在一家公司工作,他们的网络服务器一团糟。有几个文件我无法删除,因为它们需要稍后访问。我不希望它出现在我刚刚发现的关于 robot.txt 的搜索引擎中,这非常令人着迷。

我只希望它允许我的 index.php 和我的工作/文件夹中的所有内容

它是否正确?

User-agent: *
Allow: /$
Allow: /work
Allow: /http://mysite.com/index.php
Disallow: /
4

2 回答 2

3

如果你只想允许index.phpwork文件夹(和工作的子页面)。如果模式匹配,爬虫将逐行验证。如果没有,它会传递到下一个。在这种情况下Disallow: /是最新的,并且将阻止所有其他不匹配的条件的爬网。

User-agent: *
Allow: /index.php
Allow: /work
Disallow: /
于 2013-10-25T14:28:19.223 回答
0

排除除一个以外的所有文件

这目前有点尴尬,因为没有“允许”字段。简单的方法是将所有不允许的文件放到一个单独的目录中,比如“stuff”,然后将一个文件保留在该目录之上的级别:

User-agent: *
Disallow: /~joe/stuff/

或者,您可以明确禁止所有不允许的页面:

User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html

来自http://www.robotstxt.org/robotstxt.html

于 2013-10-25T14:27:37.997 回答