0

假设我的网站 children.com(我想要索引)也可以通过http://mother.com/children/(我不想索引)访问。

示例层次结构:/home/username/mother: http: //mother.com |_ children: http: //www.children.com

我会在 mom.com/robots.txt 文件中添加什么内容,以防止 children.com 和 children.com 的所有子目录中的内容被索引为属于 mother.com?

感谢您的任何建议

4

2 回答 2

0

实际上,您可能甚至不想使用 robots.txt。而是使用robots 元标记规范标记的组合。

在所有 mother.com/children 页面上,添加值为“noindex”的元机器人标签。尽管搜索引擎将能够抓取该页面,但它不会将这些页面添加到索引中。现在,这仍然会对内容的权威位置造成一些混淆。

因此,您需要使用跨域规范标签来通知主要搜索引擎权威内容所在的位置。因此,您将在mother.com/children 的页面上添加一个规范标签,并在children.com 上为它们赋予值。您需要确保如果它是特定页面,则将其规范化为 children.com 上的相同内容,因为规范标签实际上仅适用于相同的内容。

于 2012-09-21T20:22:17.387 回答
0

我已经解决了我自己的问题并通过 phpwebby robots.txt 分析器确认了它...我将以下代码放入了 mother.com/robots.txt 文件中:

User-agent: Googlebot
Disallow: /
User-agent: Mediapartners-Google
Disallow: /
User-agent: Adsbot-Google
Disallow: /
User-agent: Jeeves
Disallow: /
User-agent: Slurp
Disallow: /
User-agent: Yahoo-MMCrawler
Disallow: /
User-agent: msnbot
Disallow: /
User-agent: psbot
Disallow: /
User-agent: *
Disallow: /

并将以下内容添加到我的 chilren.com robots.txt 文件中。

User-agent: *
#block indexing of email and print pages -------
Disallow: /*~email.shtml
Disallow: /*~print.shtml
Sitemap: http://www.children.com/sitemap_index.xml

当然,我三次检查以确保(使用 robots.txt 文件分析器)各种子目录无法通过 mother.com 域访问,并且它们可以通过 children.com 域进行索引。

注意:仅以mother.com 和children.com 域为例。

于 2012-09-19T18:48:53.010 回答