使用元标记* 或 robots.txt 文件通知蜘蛛/爬虫包含或排除页面是否更好?
使用元标记和 robots.txt 是否有任何问题?
*例如:<#META name="robots" content="index, follow">
使用元标记* 或 robots.txt 文件通知蜘蛛/爬虫包含或排除页面是否更好?
使用元标记和 robots.txt 是否有任何问题?
*例如:<#META name="robots" content="index, follow">
有一个显着的区别。根据谷歌的说法,如果该页面是通过另一个站点链接到的,他们仍会将 robots.txt DENY 后面的页面编入索引。
但是,如果他们看到元标记,他们不会:
虽然 Google 不会抓取 robots.txt 阻止的内容或将其编入索引,但我们仍可能会从网络上的其他位置找到不允许的 URL 并将其编入索引。因此,URL 地址以及可能的其他公开可用信息(例如指向该站点的链接中的锚文本)仍会出现在 Google 搜索结果中。您可以使用其他 URL 阻止方法来完全阻止您的 URL 出现在 Google 搜索结果中,例如使用密码保护服务器上的文件或使用 noindex 元标记或响应标头。
所有尊重网站管理员意愿的爬虫都支持两者。并非所有人都这样做,但对他们来说,这两种技术都不够。
您可以将 robots.txt 规则用于一般情况,例如禁止您网站的整个部分。如果你说Disallow: /family
,那么所有以开头的链接/family
都不会被爬虫索引。
元标记可用于禁止单个页面。元标记不允许的页面不会影响页面层次结构中的子页面。如果您在 上设置了 meta disallow 标记,则如果允许的页面上有指向它的链接/work
,它不会阻止爬虫访问。/work/my-publications
Robots.txt 恕我直言。
Meta 标签选项告诉机器人不要索引单个文件,而 Robots.txt 可用于限制对整个目录的访问。
当然,如果您在索引文件夹中有想要跳过的奇数页,请使用元标记,但一般来说,我建议您将大部分非索引内容放在一个或多个文件夹中,并使用 robots.txt 跳过这部分内容。
不,两者都使用没有问题 - 如果有冲突,一般来说,拒绝将推翻允许。
元机器人和 robots.txt 之间有很大的不同。
在 robots.txt 中,我们会询问抓取工具您必须抓取哪些页面以及您必须排除哪个页面,但我们不会要求抓取工具不要将那些排除的页面从抓取中编入索引。
但是如果我们使用meta robots标签,我们可以要求搜索引擎爬虫不要索引这个页面。要使用的标签是:
<#meta name = "机器人名称", content = "noindex"> (去掉#)
或者
<#meta name = "机器人名称", content = "follow, noindex"> (去掉#)
在第二个元标记中,我要求机器人遵循该 URL,但不要在搜索引擎中建立索引。
元是优越的。
为了从搜索引擎索引中排除单个页面,noindex 元标记实际上优于 robots.txt。
这是我对它们的了解。我说的是他们的工作区域。两者都可以用于阻止内容。
<meta name="robots" content="index, follow">
<meta name="robots" CONTENT="all">
<meta name="robots" content="noindex, follow">
<meta name="robots" content="noindex, nofollow">
<meta name="robots" content="index, nofollow" />
<meta name="robots" content="noindex, nofollow" />
允许爬虫爬取所有网站
user-agent: *
Allow:
Disallow:
禁止爬虫爬取所有网站
user-agent: *
Allow:
Disallow:/
我可能会robots.txt
在meta
标签上使用。Robots.txt 的存在时间更长,并且可能得到更广泛的支持(但我对此不是 100% 肯定)。
至于第二部分,我认为大多数蜘蛛都会采用对页面最严格的设置——如果 robots.txt 和元标记之间存在差异。
Robots.txt 适用于消耗大量抓取预算的页面,例如内部搜索或具有无限组合的过滤器。如果您允许 Google 编制索引yoursite.com/search=lalalala
,则会浪费您的抓取预算。
您想在robots 元标记中使用 'noindex,follow'而不是robots.txt
,因为它会允许链接汁通过。从 SEO 的角度来看,它会更好。
使用元标记* 或 robots.txt 文件通知蜘蛛/爬虫包含或排除页面是否更好?
答: 两者都很重要,它们用于不同的目的。机器人文件用于从蜘蛛的索引中包含或排除页面或根文件。同时,元标记用于分析网站页面,该页面定义了页面中的利基和内容。
使用元标记和 robots.txt 是否有任何问题?
答:两者都应该在网站上实施,以便搜索引擎蜘蛛/爬虫可以索引或取消索引网站网址。
在此处阅读有关搜索引擎蜘蛛工作的更多信息>> https://www.playbuzz.com/alexhuber10/how-search-and-spider-engines-work
您可以拥有任何一个,但如果您的网站有很多网页,那么 robots.txt 很容易并降低时间复杂度