regex - robots.txt 的正则表达式 - 禁止目录中的某些内容，但不允许目录本身

Question

我正在使用带有自定义永久链接的 wordpress，我想禁止我的帖子，但让蜘蛛可以访问我的类别页面。以下是 URL 外观的一些示例：

分类页面： somesite dot com /2010/category-name/

发布： somesite dot com /2010/category-name/product-name/

所以，我很好奇是否有某种类型的正则表达式解决方案可以将页面留在 /category-name/ 允许，同时不允许更深层次的任何内容（第二个示例。）

有任何想法吗？谢谢！:)

score 0 · Accepted Answer

~~以下方法可以解决问题吗？~~

~~User-agent: * Disallow: /2010/category-name/*/~~

您可能需要明确允许以下某些文件夹/2010/category-name：

User-agent: *
Disallow: /2010/category-name/
Allow: /2010/category-name/product-name-1/
Allow: /2010/category-name/product-name-2/

但是根据这篇文章，Allow字段不在标准范围内，所以一些爬虫可能不支持它。

编辑： 我刚刚找到了每个页面中要使用的另一个资源。这个页面解释得很好：

基本思想是，如果您包含如下标签：
<META NAME="ROBOTS" CONTENT="NOINDEX">
在您的 HTML 文档中，该文档不会被索引。

如果你这样做：
<META NAME="ROBOTS" CONTENT="NOFOLLOW">
该文档中的链接不会被机器人解析。

score 0 · Accepted Answer

一些可能有帮助的信息。

robots.txt 协议没有官方标准机构或 RFC。它是 1994 年 6 月由机器人邮件列表 (robots-request@nexor.co.uk) 的成员一致创建的。指定不应访问的部分的信息在网站顶级目录中名为 robots.txt 的文件中指定。robots.txt 模式通过简单的子字符串比较进行匹配，因此应注意确保模式匹配目录附加了最后的“/”字符，否则名称以该子字符串开头的所有文件都将匹配，而不仅仅是预期的目录。

当然，除了根本不发布它们之外，没有 100% 确定的方法可以将您的页面排除在外。

见： http ://www.robotstxt.org/robotstxt.html

共识中没有允许。另外，Regex 选项也不在共识中。

来自机器人共识：

这目前有点尴尬，因为没有“允许”字段。简单的方法是将所有不允许的文件放到一个单独的目录中，比如“stuff”，然后将一个文件保留在该目录之上的级别：

User-agent: *
Disallow: /~joe/stuff/

或者，您可以明确禁止所有不允许的页面：

User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html

一个可能的解决方案：

使用 .htaccess 设置禁止来自特定文件夹的搜索机器人，同时阻止坏机器人。

见：http ://www.askapache.com/htaccess/setenvif.html

regex - robots.txt 的正则表达式 - 禁止目录中的某些内容，但不允许目录本身

2 回答 2

Related

Reference