4

我正在寻找一种算法,它可以进行某种页面排名,但随着页面变老,它们的价值会降低。

我见过的所有算法都相反(赋予旧域更多价值)。

帮助找到这样的算法将不胜感激。

编辑:看着我最初的问题,我想我有点不清楚我在问什么,而且这个问题比我最初想象的要复杂。基本上我想要的是某种排名算法,如果站点 A 在站点 B 发布帖子后立即链接到站点 B,那么站点 B 的页面会获得额外的页面排名(也许分数是一个更好的词),但是如果站点 A 有发布后很长时间链接到站点 B,它对页面排名的增加很少。

希望这是有道理的。为最初的问题是错误的道歉。

4

1 回答 1

5

您可以使用有偏差的页面排名,正如 Haveliwala 在本文中所描述的那样。

这个想法很简单,而不是使用常规随机分量:[1/n,1/n,....,1/n],使用有偏随机分量,当你进行随机游走时,不是以概率 1/n 去每一页,而是以概率 去每一页f(doc),其中 f( doc) 对于较新的页面更高,并且Sigma(f(doc)) = 1[对于集合中的所有文档,因此您的随机组件将是[f(doc1),f(doc2),...,f(docn)]

请注意,对于每个文档,必须是f(doc)>0,否则不能保证收敛 [ Perron-Frobenius定理将不适用]。


另一种可能性是计算常规页面排名,并将其与为每个页面赋予数值的不同函数相乘g:Collection->R,页面越新,该文档的得分越高。

编辑:
作为对原始问题编辑的回应:
另一种可能性是在为网络生成图形时,添加附加信息w:E->[0,1],意思是:为每条边添加一个权重函数,确定它的重要性,如果链接是在原始链接之后不久建立的编辑,w(e) 将更接近 1,如果晚得多,分数将更接近 0。

创建矩阵时,您在计算 pagerank 时使用 put Matrix[v1][v2] <- w((v1,v2)),而不是简单的二进制值,指示图中存在边。
一旦你有了这个矩阵,就可以正常计算 PageRank。

于 2011-09-21T09:06:20.730 回答