ajax - 避免在 Google 上针对存档页面的重复内容命中？

Question

我网站上的每篇博文——http: //www.correlated.org——都存档在其自己的永久链接 URL 中。

在这些归档页面中的每一个页面上，我不仅希望显示归档帖子，还希望显示之前发布的 10 篇帖子，以便人们更好地了解博客提供的内容类型。

我担心的是，谷歌和其他搜索引擎会将这些其他帖子视为重复内容，因为每个帖子都会出现在多个页面上。

在我的另一个博客上——http: //coding.pressbin.com——我试图通过将早期的帖子加载为 AJAX 调用来解决这个问题，但我想知道是否有更简单的方法。

有什么方法可以向搜索引擎发出不应索引页面的特定部分的信号？

如果没有，有没有比 AJAX 调用更简单的方法来做我想做的事情？

score 5 · Accepted Answer

警告：这尚未在野外进行测试，但应该基于我对 Google Webmaster Central 博客和 schema.org 文档的阅读。反正...

这似乎是使用microdata构建内容的一个很好的用例。这涉及将您的内容标记为Article类型的Rich Snippet，如下所示：

   <div itemscope itemtype="http://schema.org/Article" class="item first">
      <h3 itemprop="name">August 13's correlation</h3>        
      <p itemprop="description" class="stat">In general, 27 percent of people have never had any wisdom teeth extracted. But among those who describe themselves as pessimists, 38 percent haven't had wisdom teeth extracted.</p>
      <p class="info">Based on a survey of 222 people who haven't had wisdom teeth extracted and 576 people in general.</p>
      <p class="social"><a itemprop="url" href="http://www.correlated.org/153">Link to this statistic</a></p>  
   </div>

注意使用itemscope、itemtype和itemprop来定义页面上的每篇文章。

现在，根据谷歌、雅虎和必应支持的schema.org，搜索引擎应该尊重itemprop="url"上面描述的规范 url：

规范参考

通常，链接是使用元素指定的。例如，以下 HTML 链接到《麦田里的守望者》一书的 Wikipedia 页面。
<div itemscope itemtype="http://schema.org/Book">
  <span itemprop="name">The Catcher in the Rye</span>—
  by <span itemprop="author">J.D. Salinger</a>
  Here is the book's <a itemprop="url"
href="http://en.wikipedia.org/wiki/The_Catcher_in_the_Rye">维基百科页面。

http://schema.org/docs/gs.html#advanced_enum

因此，当以这种方式进行标记时，Google 应该能够正确地确定哪条内容属于哪个规范 URL，并相应地在 SERP 中对其进行加权。

完成对内容的标记后，您可以使用Rich Snippets 测试工具对其进行测试，在您将其投入生产之前，它应该可以让您很好地了解 Google 对您的网页的哪些内容。

ps为避免重复内容处罚，您可以做的最重要的事情是修复永久链接页面上的标题。目前他们都阅读“相关 - 发现令人惊讶的相关性”，这将导致您的排名受到巨大冲击。

score 0 · Accepted Answer

恐怕，但我认为不可能告诉搜索引擎您的网页的特定区域不应被编入索引（例如您的 HTML 源代码中的 div）。对此的解决方案是使用 Iframe 来处理您不使用搜索引擎索引的内容，因此我将使用带有适当标签 Disallow 的 robots.text 文件来拒绝访问链接到 Iframe 的特定文件。

score 0 · Accepted Answer

您不能告诉 Google 忽略网页的某些部分，但您可以以搜索引擎无法找到的方式提供该内容。您可以将该内容放在一个<iframe>或通过 JavaScript 提供它。

我不喜欢这两种方法，因为它们很老套。您最好的选择是从搜索引擎中完全阻止这些页面，因为无论如何所有内容都是重复的。您可以通过以下几种方式实现：

使用 robots.txt 阻止您的档案。如果您的档案在他们自己的目录中，那么您可以轻松地阻止整个目录。您还可以阻止单个文件并使用通配符来匹配模式。
使用<META NAME="ROBOTS" CONTENT="noindex">标签阻止每个页面被索引。
使用X-Robots-Tag: noindexHTTP 标头阻止每个页面被搜索引擎索引。这与使用 ` 标记的效果相同，尽管这更容易实现，因为您可以在 .htaccess 文件中使用它并将其应用于整个目录。

ajax - 避免在 Google 上针对存档页面的重复内容命中？

3 回答 3

Related

Reference