36

我有我的博客(如果需要,可以从我的个人资料中查看),而且很新鲜,还有 google 机器人解析结果。

结果令我震惊。显然,我网站上最常见的两个词是“rss”和“feed”,因为我使用文本作为“评论 RSS”、“Post Feed”等链接的文本。这两个词将出现在每个帖子中,而其他词会比较少见。

有没有办法让这些链接从谷歌的解析中消失?我不希望技术链接被编入索引。我只希望内容、标题、描述被编入索引。除了用图像替换此文本之外,我还在寻找其他东西。

从 2007 年开始,我在 Google 上发现了一些旧讨论(我认为 3 年内很多事情都可能发生变化,希望这也是)

这个问题与 robots.txt 以及如何让 Google 忽略页面无关。它是关于让它忽略页面的小部分,或者以一种人类可以看到而机器人不可见的方式转换这些部分。

4

10 回答 10

19

有一种简单的方法可以告诉 google 不要索引您的文档的某些部分,即使用googleonand googleoff

<p>This is normal (X)HTML content that will be indexed by Google.</p>

<!--googleoff: index-->

<p>This (X)HTML content will NOT be indexed by Google.</p>

<!--googleon: index-->

在这个例子中,第二段不会被谷歌索引。注意“<code>index”参数,它可以设置为以下任何一种:

  • index— 被“<code>googleoff: index”包围的内容不会被谷歌索引

    anchor—“<code>googleoff:anchor”区域内任何链接的锚文本都不会与目标页面相关联

    snippet— 被“<code>googleoff:snippet”包围的内容将不会用于为搜索结果创建片段

    all— 被“<code>googleoff: all”包围的内容被全部处理

来源

于 2014-09-23T15:01:30.957 回答
11

Google 会忽略具有以下内容的 HTML 标签data-nosnippet

<p>
   This text can be included in a snippet
   <span data-nosnippet>and this part would not be shown</span>.
</p>

来源:Google 理解的特殊标签 - 内联指令

于 2020-08-05T23:40:24.447 回答
9

我在一个网站上工作,谷歌排名在美国数千所学校排名前三,我们做了很多工作来保护我们的 SEO。您可以做 3 件主要的事情(这些都可能是在浪费时间,请继续阅读):

  • 将您想要淡化的内容移动到 HTML 的底部并使用 CSS 和/或将其放置在您希望读者看到的位置。这不会对爬虫隐藏它,但它们会降低它的价值。
  • 用图片替换那些链接(你说你不想这样做,但不要解释为什么不这样做)
  • 为爬虫提供不同的页面,这些链接被剥离。只要内容与浏览器看到的基本相同,这没有什么黑帽。如果您提供的页面与用户看到的截然不同,搜索引擎会发现您,但如果您从页面爬虫索引的版本中删除 RSS 链接,则不会有问题。

也就是说,爬虫很聪明,而且你不是唯一一个充满永久链接和 RSS 链接的网站。他们关心上下文,并在您的标题和正文中寻找术语和短语。他们知道如何确定您的博客是关于技术而不是 RSS。我非常怀疑这些链接对您的 SEO 有任何负面影响。你真正想解决什么问题?

如果您想构建 SEO,请弄清楚您为读者提供的价值并写下它。说一些有趣的话,让其他人链接到你的博客,爬虫就会明白你是人们重视的信息来源。多考虑读者看到和理解的内容,而不是您认为爬虫看到的内容。

于 2010-07-09T05:29:55.340 回答
5

首先考虑问题。如果 Google 认为“RSS”是主要关键字,则可能表明您的其余内容有点肤浅,需要扩展。也许这应该是您关注的焦点。如果您的其余内容丰富,我不会担心这个问题,因为搜索引擎应该从标题和标题中知道页面的内容。只需确保 RSS 等不在标题或粗体或强标签中。

其次,正如您正确提到的那样,您可能不希望使用图像,因为没有替代文字的屏幕阅读器无法评估它们,如果它们有替代文字或支持文字,那么您可以重新添加关键字。但是 aria live 可能会帮助您绕过这个问题,但我不是可访问性专家。

选项

  • 使用 JavaScript 来编写那部分内容(可能在加载后将其 ajax)。像 Google 这样的搜索引擎可以执行 JavaScript,但我猜它不会非常重视任何 JS 编写的内容。
  • 重新措辞或删除重复的内容,一个突出的 RSS 提要链接可能比页面周围的几个较小的链接更好。
  • 使用带有伪 :before 或 :after 的 CSS 内容属性来添加您的内容。我不确定机器人是否会在 CSS 的内容属性中为单词编制索引,并知道内容与每个页面相关的值,但似乎不太可能。将 RSS 之类的词放在 CSS 中基本上表示它是一种样式而不是 HTML,因此即使引擎对其进行索引,它们也不会为其添加太多/任何价值。例如,HTML 和 CSS 可以是:

    <a href="/my-feed.rss" class="add-text"></a>
    
    .add-text:after { content:'View my RSS feed'; }
    

请注意,上述内容不适用于旧版本的 IE,因此如果您关心的话,可能需要一些 IE 版本注释。

于 2013-08-09T13:15:00.377 回答
4

只有 Google Search Appliance 支持“googleon”和“googleoff”(当您托管自己的搜索结果时,通常用于您自己的内部网站)。

谷歌的网络搜索根本不支持它们。所以请不要这样做,我认为不应将其标记为正确答案,因为这可能会产生歧义。

现在,要让 Google 排除页面的一部分,您需要将该内容放在单独的文件中,例如 exclude.html,并使用 iframe 在主机页面中显示该内容。

iframe 标记从另一个文件中抓取内容并将其插入到主机页面中。我认为到目前为止还没有其他可用的方法。

于 2019-01-24T14:00:27.827 回答
2

您对索引机器人的唯一控制是 robots.txt 文件。请参阅此文档,由 Google 在其解释文件用法的页面上链接。

您基本上可以禁止某些链接和 URL,但不一定是关键字。

于 2010-07-08T19:51:21.007 回答
1

除了黑帽服务器端方法之外,您无能为力。您可能想看看为什么您经常使用这些词并将其中一些从网站中删除。

过去你可以使用 JS 来“隐藏”googlebot 的东西,但现在你不能使用它来解析 JS。( http://www.webmasterworld.com/google/4159807.htm )

于 2010-07-09T03:45:35.820 回答
1

谷歌爬虫很聪明,但编写它们的人是最聪明的。人们总是在页面中看到什么是明智的,他们会花时间在博客上,这些博客有一些很好的内容,而且是最稀有和独特的。这完全是关于常识,人们如何访问您的博客以及他们花费了多少时间。谷歌以同样的方式衡量搜索结果。随着每日访问量的增加和网站内容的改进和每天更新,您的页面排名也会增加。此页面有多次重复的“答案”字样。这并不意味着它不会被索引。这是对每个人有多大用处。我希望它会给你一些想法

于 2014-03-17T09:31:32.100 回答
0

我想,在某些情况下,您可以使用视口调整大小侦听器将 HTML 实时呈现为画布。

https://github.com/miohtama/Krusovice/blob/master/src/tools/html2svg2canvas.js

https://github.com/tsayen/dom-to-image

例如对于具有状态 URL 的模式

于 2021-12-29T02:26:27.140 回答
-3

您必须从请求的用户代理中手动检测“Google Bot”,并为它们提供与您通常提供给用户的内容略有不同的内容。

于 2010-07-09T03:26:45.203 回答