我在一家公司工作,他们的网络服务器一团糟。有几个文件我无法删除,因为它们需要稍后访问。我不希望它出现在我刚刚发现的关于 robot.txt 的搜索引擎中,这非常令人着迷。
我只希望它允许我的 index.php 和我的工作/文件夹中的所有内容
它是否正确?
User-agent: *
Allow: /$
Allow: /work
Allow: /http://mysite.com/index.php
Disallow: /
我在一家公司工作,他们的网络服务器一团糟。有几个文件我无法删除,因为它们需要稍后访问。我不希望它出现在我刚刚发现的关于 robot.txt 的搜索引擎中,这非常令人着迷。
我只希望它允许我的 index.php 和我的工作/文件夹中的所有内容
它是否正确?
User-agent: *
Allow: /$
Allow: /work
Allow: /http://mysite.com/index.php
Disallow: /
如果你只想允许index.php
和work
文件夹(和工作的子页面)。如果模式匹配,爬虫将逐行验证。如果没有,它会传递到下一个。在这种情况下Disallow: /
是最新的,并且将阻止所有其他不匹配的条件的爬网。
User-agent: *
Allow: /index.php
Allow: /work
Disallow: /
排除除一个以外的所有文件
这目前有点尴尬,因为没有“允许”字段。简单的方法是将所有不允许的文件放到一个单独的目录中,比如“stuff”,然后将一个文件保留在该目录之上的级别:
User-agent: * Disallow: /~joe/stuff/
或者,您可以明确禁止所有不允许的页面:
User-agent: * Disallow: /~joe/junk.html Disallow: /~joe/foo.html Disallow: /~joe/bar.html