1

我正在使用带有自定义永久链接的 wordpress,我想禁止我的帖子,但让蜘蛛可以访问我的类别页面。以下是 URL 外观的一些示例:

分类页面: somesite dot com /2010/category-name/

发布: somesite dot com /2010/category-name/product-name/

所以,我很好奇是否有某种类型的正则表达式解决方案可以将页面留在 /category-name/ 允许,同时不允许更深层次的任何内容(第二个示例。)

有任何想法吗?谢谢!:)

4

2 回答 2

0

以下方法可以解决问题吗?

User-agent: *
Disallow: /2010/category-name/*/

您可能需要明确允许以下某些文件夹/2010/category-name

User-agent: *
Disallow: /2010/category-name/
Allow: /2010/category-name/product-name-1/
Allow: /2010/category-name/product-name-2/

但是根据这篇文章Allow字段不在标准范围内,所以一些爬虫可能不支持它。

编辑: 我刚刚找到了每个页面中要使用的另一个资源。这个页面解释得很好:

基本思想是,如果您包含如下标签:

<META NAME="ROBOTS" CONTENT="NOINDEX">

在您的 HTML 文档中,该文档不会被索引。

如果你这样做:

<META NAME="ROBOTS" CONTENT="NOFOLLOW">

该文档中的链接不会被机器人解析。

于 2010-09-20T01:11:09.690 回答
0

一些可能有帮助的信息。

robots.txt 协议没有官方标准机构或 RFC。它是 1994 年 6 月由机器人邮件列表 (robots-request@nexor.co.uk) 的成员一致创建的。指定不应访问的部分的信息在网站顶级目录中名为 robots.txt 的文件中指定。robots.txt 模式通过简单的子字符串比较进行匹配,因此应注意确保模式匹配目录附加了最后的“/”字符,否则名称以该子字符串开头的所有文件都将匹配,而不仅仅是预期的目录。

当然,除了根本不发布它们之外,没有 100% 确定的方法可以将您的页面排除在外。

见: http ://www.robotstxt.org/robotstxt.html

共识中没有允许。另外,Regex 选项也不在共识中。

来自机器人共识:

这目前有点尴尬,因为没有“允许”字段。简单的方法是将所有不允许的文件放到一个单独的目录中,比如“stuff”,然后将一个文件保留在该目录之上的级别:

User-agent: *
Disallow: /~joe/stuff/

或者,您可以明确禁止所有不允许的页面:

User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html

一个可能的解决方案

使用 .htaccess 设置禁止来自特定文件夹的搜索机器人,同时阻止坏机器人。

见:http ://www.askapache.com/htaccess/setenvif.html

于 2010-09-20T03:32:46.977 回答