5

Pagerank作用于一系列页面的节点图和由它们各自的向内和向外链接形成的有向边。因此,特定页面的排名大致是节点图中的局部诱导效应。

另一方面,SVD适用于整个值矩阵,并且没有方向性 - 站点 A 和站点 B 之间的链接只会在正确的矩阵元素上注册为 1。它是一个全球系统,所以排名是一个全球效应。

鉴于网络衍生矩阵的极端稀疏性,我认为 SVD 在这里表现不佳,因为它需要完整的数据集,并且需要大量内存。

真的吗?Pagerank 是否在很大程度上超过了 SVD,因为它是一种基于节点图的算法?Pagerank 如何从页面中推断出超出单词被提及次数的语义相关性?或者这是在 Pagerank 对页面进行排名之后执行的第二步?

4

2 回答 2

4

这里有两个问题:哪个度量容易计算,哪个产生我们正在寻找的信息?我不知道这两个问题的答案,但我或许可以给出部分答案。

首先,相关性。使用网络理论中的术语,这两个量都是中心性度量。PageRank 计算特征向量中心性(一种变体),而 SVD 显然导致了超链接诱导主题搜索 (HITS) 算法。我从 Peter Dodds(佛蒙特大学)的这份讲义中得到了这个。他们衡量不同的东西,但我不清楚哪一个与衡量网页的重要性最相关。

其次,计算成本。从数学上讲,PageRank 是(修改后的)邻接矩阵的主要特征向量 - 正如维基百科页面上所解释的那样 - 而 HITS 给出了邻接矩阵的主要奇异向量。两者都是由网页的全局网络和它们之间的链接定义的,并且都可以通过仅考虑本地节点图来计算。所以乍一看,我认为计算成本大致相等。

总之,我不知道为什么 PageRank 比 SVD 更好;我什至不清楚它是否比 SVD 更好。

于 2009-12-08T17:15:14.940 回答
1

请注意,PageRank 使用传送的随机游走矩阵。瞬移对于避免随机游走矩阵的(低度)局部特征向量很重要。我认为 PageRank 比 HITS 更好,因为随机游走矩阵是度归一化的邻接矩阵,它抑制了大度节点和循环的影响,而不是大度节点可以生成局部向量的 HITS。

于 2014-07-25T03:39:00.530 回答