4

我正在寻找能够展示单个网页重要性的算法/技术。撇开 PageRank 不谈,还有其他方法可以根据内容、结构和超链接相互进行评级吗?

我不仅在谈论从 www.foo.com 到 www.bar.com 的连接,就像 PageRank 那样,而且还从 www.foo.com/bar 到 www.foo.com/baz 等等(除了事实上调整 PageRank 以满足这些需求)

我如何“定义”重要性:我认为在这种情况下的重要性是“这一面与用户的相关程度,以及它对网站其他部分的重要性”。
例如,圣诞抽奖活动在起始页上公布,只有一个链接指向该站点,这对用户和站点来说都更重要。一个印记,它有来自每个站点的链接(因为它主要在页脚的某个地方)并不重要,尽管它有很多链接。印记作为一个“单元”对于网站来说也不重要,因为它没有为页面的目的提供任何真正的价值(= 提供信息、销售产品、一般服务等)

4

2 回答 2

1

另一个著名的算法是Hubs and Authorities (HITS)。基本上,您将您的页面分类为集线器(具有大量出站链接的页面)和权威(具有大量入站链接的页面)。

但是您应该真正定义重要性的含义。真的很重要是什么意思?PageRank根据入站链接对其进行定义。那是PageRank定义。

如果您将重要定义为拥有照片,因为您喜欢摄影。然后你可以想出一个重要的指标,比如页面中的照片数量。另一个指标可能是来自摄影网站的入站链接数量(如flickr.com, 500px, ...)

使用您对重要的定义,您可以使用 `1-(入站链接数除以网站上的页面数)。这为您提供了一个介于 0 和 1 之间的数字。0 表示不重要,1 表示重要。

使用此指标,您的印记(出现在网站的所有页面上)的重要性为 0。您的圣诞促销页面只有一个链接,其重要性几乎为 1

于 2011-10-16T12:26:13.940 回答
1

还有比 HITS 更稳定的SALSA [因此受到垃圾邮件的影响更少]。

由于您也对页面上下文感兴趣,您可能想看看 Haveliwala 关于主题敏感页面排名的工作

于 2011-10-16T12:32:47.273 回答