7

我正在制作一个网站,该网站将对互联网上数十万个其他网站的隐私政策进行审查。它的初始内容是基于我运行CommonCrawl 50 亿页网页转储并使用脚本分析所有隐私政策,以识别某些特征(例如“出售您的个人信息”)。

根据SEO MOZ SEO 初学者指南

搜索引擎往往只抓取任何给定页面上的大约 100 个链接。这种宽松的限制对于减少垃圾邮件和保持排名是必要的。

我想知道什么是创建导航网络的聪明方法,它不会留下孤立的页面,但仍然可以避免他们所说的这种 SEO 惩罚。我有几个想法:

  • 创建按字母顺序排列的页面(或 Google Sitemap .xml),例如“以 Ado* 开头的站点”。例如,它将在那里链接“Adobe.com”。这或任何其他无意义的页面拆分似乎有点做作,我想知道谷歌是否会不喜欢它。
  • 使用元关键字或描述进行分类
  • 找到一些方法来应用更有趣的类别,例如基于地理或基于内容的类别。我在这里担心的是我不确定如何将这些类别全面应用于这么多网站。我想如果需要,我可以编写另一个分类器来尝试分析爬网中的页面内容。不过,这听起来像是一项艰巨的工作。
  • 使用 DMOZ 项目来帮助对页面进行分类。

Wikipedia 和 StackOverflow 通过允许用户对所有页面进行分类或标记,显然很好地解决了这个问题。就我而言,我没有那么奢侈,但我想找到最好的选择。

这个问题的核心是谷歌如何响应不同的导航结构。它会惩罚那些以程序化/无意义的方式创建网页的人吗?或者只要一切都通过链接连接,它就不在乎了吗?

4

1 回答 1

3

Google PageRank 不会因为您在一个页面上拥有超过 100 个链接而对您进行处罚。但是每个超过某个阈值的链接在 PageRank 算法中的价值/重要性都会降低。

引用 SEOMOZ 和 Matt Cutts 的话:

你会受到惩罚吗?

在我们深入挖掘之前,我想明确表示,100 个链接的限制从来都不是惩罚的情况。在 2007 年 8 月的一次采访中,兰德引用了马特·卡茨的话说:

“将链接数量保持在 100 以下”在技术指南部分,而不是质量指南部分。这意味着如果页面上有 101 或 102 个链接,我们不会删除该页面。将此更多地视为经验法则。

当时,Google 很可能在某个时间点之后开始忽略链接,但最坏的情况是,这使那些后 100 个链接无法通过 PageRank。该页面本身不会被取消索引或受到惩罚。

所以问题真的是如何让谷歌认真对待你的所有链接。您可以通过生成一个 XML 站点地图供 Google 抓取来完成此操作(您可以拥有一个静态的 sitemap.xml 文件,也可以动态生成其内容)。您需要阅读 Google Webmaster Tools 帮助文档的About Sitemaps部分。

就像页面上有太多链接是一个问题一样,XML 站点地图文件中有太多链接也是一个问题。您需要做的是对您的 XML 站点地图进行分页。Jeff Atwood 谈到 StackOverflow 如何实现这一点:站点地图的重要性。Jeff 还在StackOverflow 播客 #24上讨论了同样的问题。

此外,这个概念也适用于应。

于 2012-05-10T02:06:58.280 回答