indexing - 在 Robots.txt 中跟随 noindex

Question

我有一个 wordpress 网站，该网站已被搜索引擎收录。

我编辑了 Robots.txt 以禁止搜索索引中的某些目录和网页。

我只知道如何使用allow和disallow，但不知道如何使用Robots.txt文件中的follow和nofollow。

我在谷歌搜索时在某处读到，我可以拥有不会在 Google 中被编入索引但会被抓取以获取 pagerank 的网页。这可以通过禁用 Robots.txt 中的网页并使用以下网页来实现。

请让我知道如何在 Robots.txt 文件中使用 follow 和 nofollow。

谢谢

苏米特

score 1 · Accepted Answer

a.) follow/no follow 和 index/no index 规则不适用于 robots.txt（设置一般站点规则），而是用于页面元机器人标签（设置此特定页面的规则）

有关元机器人的更多信息

b.) Google 不会抓取不允许的页面，但它可以在 SERP 上将它们编入索引（使用来自入站链接或 Dmoz 等网站目录的信息）。
话虽如此，您无法从中获得任何公关价值。

有关 Googlebot 的索引行为的更多信息

score 1 · Accepted Answer

Google 实际上确实识别了 robots.txt 中的 Noindex: 指令。这是马特·卡茨谈论它： http: //www.mattcutts.com/blog/google-noindex-behavior/

如果您在 robots.txt 中为已经在 Google 索引中的页面添加“Disallow”，您通常会发现该页面保留在索引中，就像幽灵一样，被剥夺了关键字。我想这是因为他们知道他们不会抓取它，并且他们不想要包含 bit-rot 的索引。因此，他们将页面描述替换为“由于此站点的 robots.txt，无法获得此结果的描述 - 了解更多信息。”

所以，问题仍然存在：既然“禁止”不起作用，我们如何从 Google 中删除该链接？通常，您会希望在相关页面上使用元机器人 noindex，因为如果 Google 看到此更新，它实际上会从索引中删除该页面，但是使用您的机器人文件中的 Disallow 指令，他们永远不会知道它。

因此，您可以从 robots.txt 中删除该页面的 Disallow 规则，并在该页面的标题中添加一个 meta robots noindex 标签，但现在您必须等待 Google 返回并查看您告诉他们忘记的页面。

您可以从您的主页创建一个指向它的新链接，希望 Google 会得到提示，或者您可以通过直接将 Noindex 规则添加到 robots.txt 文件来避免整个事情。在上面的帖子中，马特说这将导致链接被删除。

score 0 · Accepted Answer

不，你不能。您可以设置要阻止的目录和机器人，但不能通过 robots.txt 设置 nofollow 在页面上使用机器人元标记来设置 nofollow。

indexing - 在 Robots.txt 中跟随 noindex

3 回答 3

Related

Reference