2

我想获得一些使用 Hadoop 和页面排名的经验。我使用 Hadoop 完成了页面排名算法的简单实现。现在,我计划分析更改少数算法参数的可能影响,并研究它如何影响页面排名。现在我正在分析悬空节点如何影响页面排名。关于可以对这个页面排名做出哪些其他变化的任何建议都将极大地帮助我获得一些更深入的知识。

谢谢

4

1 回答 1

2

据我所知,有几个变化:

  • 加权 PageRank 算法:将较大的排名值分配给更重要(流行)的页面,而不是将页面的排名值在其外链页面之间平均分配。
  • 主题敏感的 pagerank

    在用于提高搜索查询结果排名的原始 PageRank 算法中,使用 Web 的链接结构计算单个 PageRank 向量,以捕获网页的“相对重要性”,与任何特定的搜索查询无关。以产生更准确的在搜索结果中,我们建议计算一组 PageRank 向量,使用一组代表性主题进行偏置,以更准确地捕捉特定主题的重要性概念。

  • Z. Gy¨ongi、H. Garcia-Molina 和 J. Pedersen,“<a href="http://www.vldb.org/conf/2004/RS15P3.PDF" rel="nofollow">打击垃圾链接具有信任等级,”</li>
  • 您也可以尝试HITS(超链接环境中的权威来源)。
  • 更进一步,您可以尝试将 pagerank 想法应用到其他领域,例如TupleRank: Ranking Relational Databases using Random Walks on Extended K-partite Graphs

于 2012-10-22T19:10:09.007 回答