27
  1. 使用元标记* 或 robots.txt 文件通知蜘蛛/爬虫包含或排除页面是否更好?

  2. 使用元标记和 robots.txt 是否有任何问题?

*例如:<#META name="robots" content="index, follow">

4

11 回答 11

49

有一个显着的区别。根据谷歌的说法,如果该页面是通过另一个站点链接到的,他们仍会将 robots.txt DENY 后面的页面编入索引。

但是,如果他们看到元标记,他们不会:

虽然 Google 不会抓取 robots.txt 阻止的内容或将其编入索引,但我们仍可能会从网络上的其他位置找到不允许的 URL 并将其编入索引。因此,URL 地址以及可能的其他公开可用信息(例如指向该站点的链接中的锚文本)仍会出现在 Google 搜索结果中。您可以使用其他 URL 阻止方法来完全阻止您的 URL 出现在 Google 搜索结果中,例如使用密码保护服务器上的文件或使用 noindex 元标记或响应标头

于 2013-08-19T14:27:20.790 回答
4

所有尊重网站管理员意愿的爬虫都支持两者。并非所有人都这样做,但对他们来说,这两种技术都不够。

您可以将 robots.txt 规则用于一般情况,例如禁止您网站的整个部分。如果你说Disallow: /family,那么所有以开头的链接/family都不会被爬虫索引。

元标记可用于禁止单个页面。元标记不允许的页面不会影响页面层次结构中的子页面。如果您在 上设置了 meta disallow 标记,则如果允许的页面上有指向它的链接/work,它不会阻止爬虫访问。/work/my-publications

于 2010-07-27T21:50:03.867 回答
3

Robots.txt 恕我直言。

Meta 标签选项告诉机器人不要索引单个文件,而 Robots.txt 可用于限制对整个目录的访问。

当然,如果您在索引文件夹中有想要跳过的奇数页,请使用元标记,但一般来说,我建议您将大部分非索引内容放在一个或多个文件夹中,并使用 robots.txt 跳过这部分内容。

不,两者都使用没有问题 - 如果有冲突,一般来说,拒绝将推翻允许

于 2010-07-27T21:49:44.507 回答
1

元机器人和 robots.txt 之间有很大的不同。

在 robots.txt 中,我们会询问抓取工具您必须抓取哪些页面以及您必须排除哪个页面,但我们不会要求抓取工具不要将那些排除的页面从抓取中编入索引。

但是如果我们使用meta robots标签,我们可以要求搜索引擎爬虫不要索引这个页面。要使用的标签是:

<#meta name = "机器人名称", content = "noindex"> (去掉#)

或者

<#meta name = "机器人名称", content = "follow, noindex"> (去掉#)

在第二个元标记中,我要求机器人遵循该 URL,但不要在搜索引擎中建立索引。

于 2014-07-18T12:23:23.940 回答
1

元是优越的。

为了从搜索引擎索引中排除单个页面,noindex 元标记实际上优于 robots.txt。

于 2014-02-15T16:57:19.590 回答
1

这是我对它们的了解。我说的是他们的工作区域。两者都可以用于阻止内容。

两者的区别在于:

  • Meta Robot 可以通过在网站标题中粘贴一些代码来阻止单个页面。通过使用元机器人标签,我们告诉搜索引擎我们使用元标签的功能。
  • 在 Robots.txt 文件中,您可以阻止整个网站。

这是元机器人的示例:

<meta name="robots" content="index, follow"> 
<meta name="robots" CONTENT="all">
<meta name="robots" content="noindex, follow">
<meta name="robots" content="noindex, nofollow">
<meta name="robots" content="index, nofollow" />
<meta name="robots" content="noindex, nofollow" />

以下是 Robots.txt 文件的示例:

允许爬虫爬取所有网站

user-agent: *
Allow:
Disallow:

禁止爬虫爬取所有网站

user-agent: *
Allow:
Disallow:/
于 2019-03-04T13:47:35.123 回答
0

我可能会robots.txtmeta标签上使用。Robots.txt 的存在时间更长,并且可能得到更广泛的支持(但我对此不是 100% 肯定)。

至于第二部分,我认为大多数蜘蛛都会采用对页面最严格的设置——如果 robots.txt 和元标记之间存在差异。

于 2010-07-27T21:42:36.610 回答
0

Robots.txt 适用于消耗大量抓取预算的页面,例如内部搜索或具有无限组合的过滤器。如果您允许 Google 编制索引yoursite.com/search=lalalala,则会浪费您的抓取预算。

于 2014-01-23T17:03:50.897 回答
0

您想在robots 元标记中使用 'noindex,follow'而不是robots.txt,因为它会允许链接汁通过。从 SEO 的角度来看,它会更好。

于 2014-08-12T18:31:35.007 回答
0

使用元标记* 或 robots.txt 文件通知蜘蛛/爬虫包含或排除页面是否更好?

答: 两者都很重要,它们用于不同的目的。机器人文件用于从蜘蛛的索引中包含或排除页面或根文件。同时,元标记用于分析网站页面,该页面定义了页面中的利基和内容。

使用元标记和 robots.txt 是否有任何问题?

答:两者都应该在网站上实施,以便搜索引擎蜘蛛/爬虫可以索引或取消索引网站网址。

在此处阅读有关搜索引擎蜘蛛工作的更多信息>> https://www.playbuzz.com/alexhuber10/how-search-and-spider-engines-work

于 2019-07-23T11:07:12.700 回答
-1

您可以拥有任何一个,但如果您的网站有很多网页,那么 robots.txt 很容易并降低时间复杂度

于 2013-08-20T07:20:10.797 回答