seo - 元标记与 robots.txt

Question

使用元标记* 或 robots.txt 文件通知蜘蛛/爬虫包含或排除页面是否更好？
使用元标记和 robots.txt 是否有任何问题？

*例如：<#META name="robots" content="index, follow">

score 49 · Accepted Answer

有一个显着的区别。根据谷歌的说法，如果该页面是通过另一个站点链接到的，他们仍会将 robots.txt DENY 后面的页面编入索引。

但是，如果他们看到元标记，他们不会：

虽然 Google 不会抓取 robots.txt 阻止的内容或将其编入索引，但我们仍可能会从网络上的其他位置找到不允许的 URL 并将其编入索引。因此，URL 地址以及可能的其他公开可用信息（例如指向该站点的链接中的锚文本）仍会出现在 Google 搜索结果中。您可以使用其他 URL 阻止方法来完全阻止您的 URL 出现在 Google 搜索结果中，例如使用密码保护服务器上的文件或使用 noindex 元标记或响应标头。

score 4 · Accepted Answer

所有尊重网站管理员意愿的爬虫都支持两者。并非所有人都这样做，但对他们来说，这两种技术都不够。

您可以将 robots.txt 规则用于一般情况，例如禁止您网站的整个部分。如果你说Disallow: /family，那么所有以开头的链接/family都不会被爬虫索引。

元标记可用于禁止单个页面。元标记不允许的页面不会影响页面层次结构中的子页面。如果您在上设置了 meta disallow 标记，则如果允许的页面上有指向它的链接/work，它不会阻止爬虫访问。/work/my-publications

score 3 · Accepted Answer

Robots.txt 恕我直言。

Meta 标签选项告诉机器人不要索引单个文件，而 Robots.txt 可用于限制对整个目录的访问。

当然，如果您在索引文件夹中有想要跳过的奇数页，请使用元标记，但一般来说，我建议您将大部分非索引内容放在一个或多个文件夹中，并使用 robots.txt 跳过这部分内容。

不，两者都使用没有问题 - 如果有冲突，一般来说，拒绝将推翻允许。

score 1 · Accepted Answer

元机器人和 robots.txt 之间有很大的不同。

在 robots.txt 中，我们会询问抓取工具您必须抓取哪些页面以及您必须排除哪个页面，但我们不会要求抓取工具不要将那些排除的页面从抓取中编入索引。

但是如果我们使用meta robots标签，我们可以要求搜索引擎爬虫不要索引这个页面。要使用的标签是：

<#meta name = "机器人名称", content = "noindex"> (去掉#)

或者

<#meta name = "机器人名称", content = "follow, noindex"> (去掉#)

在第二个元标记中，我要求机器人遵循该 URL，但不要在搜索引擎中建立索引。

score 1 · Accepted Answer

元是优越的。

为了从搜索引擎索引中排除单个页面，noindex 元标记实际上优于 robots.txt。

score 1 · Accepted Answer

这是我对它们的了解。我说的是他们的工作区域。两者都可以用于阻止内容。

两者的区别在于：

Meta Robot 可以通过在网站标题中粘贴一些代码来阻止单个页面。通过使用元机器人标签，我们告诉搜索引擎我们使用元标签的功能。
在 Robots.txt 文件中，您可以阻止整个网站。

这是元机器人的示例：

<meta name="robots" content="index, follow"> 
<meta name="robots" CONTENT="all">
<meta name="robots" content="noindex, follow">
<meta name="robots" content="noindex, nofollow">
<meta name="robots" content="index, nofollow" />
<meta name="robots" content="noindex, nofollow" />

以下是 Robots.txt 文件的示例：

允许爬虫爬取所有网站

user-agent: *
Allow:
Disallow:

禁止爬虫爬取所有网站

user-agent: *
Allow:
Disallow:/

score 0 · Accepted Answer

我可能会robots.txt在meta标签上使用。Robots.txt 的存在时间更长，并且可能得到更广泛的支持（但我对此不是 100% 肯定）。

至于第二部分，我认为大多数蜘蛛都会采用对页面最严格的设置——如果 robots.txt 和元标记之间存在差异。

score 0 · Accepted Answer

Robots.txt 适用于消耗大量抓取预算的页面，例如内部搜索或具有无限组合的过滤器。如果您允许 Google 编制索引yoursite.com/search=lalalala，则会浪费您的抓取预算。

score 0 · Accepted Answer

您想在robots 元标记中使用 'noindex,follow'而不是robots.txt，因为它会允许链接汁通过。从 SEO 的角度来看，它会更好。

score 0 · Accepted Answer

使用元标记* 或 robots.txt 文件通知蜘蛛/爬虫包含或排除页面是否更好？

答：两者都很重要，它们用于不同的目的。机器人文件用于从蜘蛛的索引中包含或排除页面或根文件。同时，元标记用于分析网站页面，该页面定义了页面中的利基和内容。

使用元标记和 robots.txt 是否有任何问题？

答：两者都应该在网站上实施，以便搜索引擎蜘蛛/爬虫可以索引或取消索引网站网址。

在此处阅读有关搜索引擎蜘蛛工作的更多信息>> https://www.playbuzz.com/alexhuber10/how-search-and-spider-engines-work

score -1 · Accepted Answer

您可以拥有任何一个，但如果您的网站有很多网页，那么 robots.txt 很容易并降低时间复杂度

seo - 元标记与 robots.txt

11 回答 11

两者的区别在于：

这是元机器人的示例：

以下是 Robots.txt 文件的示例：

Related

Reference