一些可能有帮助的信息。
robots.txt 协议没有官方标准机构或 RFC。它是 1994 年 6 月由机器人邮件列表 (robots-request@nexor.co.uk) 的成员一致创建的。指定不应访问的部分的信息在网站顶级目录中名为 robots.txt 的文件中指定。robots.txt 模式通过简单的子字符串比较进行匹配,因此应注意确保模式匹配目录附加了最后的“/”字符,否则名称以该子字符串开头的所有文件都将匹配,而不仅仅是预期的目录。
当然,除了根本不发布它们之外,没有 100% 确定的方法可以将您的页面排除在外。
见:
http ://www.robotstxt.org/robotstxt.html
共识中没有允许。另外,Regex 选项也不在共识中。
来自机器人共识:
这目前有点尴尬,因为没有“允许”字段。简单的方法是将所有不允许的文件放到一个单独的目录中,比如“stuff”,然后将一个文件保留在该目录之上的级别:
User-agent: *
Disallow: /~joe/stuff/
或者,您可以明确禁止所有不允许的页面:
User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html
一个可能的解决方案:
使用 .htaccess 设置禁止来自特定文件夹的搜索机器人,同时阻止坏机器人。
见:http ://www.askapache.com/htaccess/setenvif.html