4

我网站上的每篇博文——http: //www.correlated.org——都存档在其自己的永久链接 URL 中。

在这些归档页面中的每一个页面上,我不仅希望显示归档帖子,还希望显示之前发布的 10 篇帖子,以便人们更好地了解博客提供的内容类型。

我担心的是,谷歌和其他搜索引擎会将这些其他帖子视为重复内容,因为每个帖子都会出现在多个页面上。

在我的另一个博客上——http: //coding.pressbin.com——我试图通过将早期的帖子加载为 AJAX 调用来解决这个问题,但我想知道是否有更简单的方法。

有什么方法可以向搜索引擎发出不应索引页面的特定部分的信号?

如果没有,有没有比 AJAX 调用更简单的方法来做我想做的事情?

4

3 回答 3

5

警告:这尚未在野外进行测试,但应该基于我对 Google Webmaster Central 博客和 schema.org 文档的阅读。反正...


这似乎是使用microdata构建内容的一个很好的用例。这涉及将您的内容标记为Article类型的Rich Snippet,如下所示:

   <div itemscope itemtype="http://schema.org/Article" class="item first">
      <h3 itemprop="name">August 13's correlation</h3>        
      <p itemprop="description" class="stat">In general, 27 percent of people have never had any wisdom teeth extracted. But among those who describe themselves as pessimists, 38 percent haven't had wisdom teeth extracted.</p>
      <p class="info">Based on a survey of 222 people who haven't had wisdom teeth extracted and 576 people in general.</p>
      <p class="social"><a itemprop="url" href="http://www.correlated.org/153">Link to this statistic</a></p>  
   </div>

注意使用itemscopeitemtypeitemprop来定义页面上的每篇文章。

现在,根据谷歌、雅虎和必应支持的schema.org,搜索引擎应该尊重itemprop="url"上面描述的规范 url:

规范参考

通常,链接是使用元素指定的。例如,以下 HTML 链接到《麦田里的守望者》一书的 Wikipedia 页面。

<div itemscope itemtype="http://schema.org/Book">
  <span itemprop="name">The Catcher in the Rye</span>—
  by <span itemprop="author">J.D. Salinger</a>
  Here is the book's <a itemprop="url"

href="http://en.wikipedia.org/wiki/The_Catcher_in_the_Rye">维基百科页面。

因此,当以这种方式进行标记时,Google 应该能够正确地确定哪条内容属于哪个规范 URL,并相应地在 SERP 中对其进行加权。

完成对内容的标记后,您可以使用Rich Snippets 测试工具对其进行测试,在您将其投入生产之前,它应该可以让您很好地了解 Google 对您的网页的哪些内容。


ps为避免重复内容处罚,您可以做的最重要的事情是修复永久链接页面上的标题。目前他们都阅读“相关 - 发现令人惊讶的相关性”,这将导致您的排名受到巨大冲击。

于 2011-09-01T09:24:42.783 回答
0

恐怕,但我认为不可能告诉搜索引擎您的网页的特定区域不应被编入索引(例如您的 HTML 源代码中的 div)。对此的解决方案是使用 Iframe 来处理您不使用搜索引擎索引的内容,因此我将使用带有适当标签 Disallow 的 robots.text 文件来拒绝访问链接到 Iframe 的特定文件。

于 2011-08-06T14:56:59.533 回答
0

您不能告诉 Google 忽略网页的某些部分,但您可以以搜索引擎无法找到的方式提供该内容。您可以将该内容放在一个<iframe>或通过 JavaScript 提供它。

我不喜欢这两种方法,因为它们很老套。您最好的选择是从搜索引擎中完全阻止这些页面,因为无论如何所有内容都是重复的。您可以通过以下几种方式实现:

  1. 使用 robots.txt 阻止您的档案。如果您的档案在他们自己的目录中,那么您可以轻松地阻止整个目录。您还可以阻止单个文件并使用通配符来匹配模式。

  2. 使用<META NAME="ROBOTS" CONTENT="noindex">标签阻止每个页面被索引。

  3. 使用X-Robots-Tag: noindexHTTP 标头阻止每个页面被搜索引擎索引。这与使用 ` 标记的效果相同,尽管这更容易实现,因为您可以在 .htaccess 文件中使用它并将其应用于整个目录。

于 2011-08-31T13:41:07.190 回答