7

给定一个查询,我有一个文档的余弦分数。我也有文件pagerank。有没有将两者结合起来的标准好方法?

我正在考虑将它们相乘

 Total_Score = cosine-score * pagerank

因为如果您的 pagerank 或 cosine-score 得分较低,则该文档并不有趣。

还是最好有一个加权和?

Total_Score = weight1 * cosine-score + weight2 * pagerank

这是否更好?那么你的余弦分数可能为零,但页面排名很高,并且页面将显示在结果中。

4

4 回答 4

3

加权和作为排名规则可能更好。

它有助于将问题分解为检索/过滤步骤和排名步骤。用加权和方法概述的问题不再成立。

Sergey Brin 和 Lawrence Page 在这篇论文中概述的过程使用向量/余弦模型的变体进行检索,它似乎是某种加权和,其中权重由用户活动确定(参见第 4.5.1 节)。使用这种方法,具有零余弦的文档将无法通过检索/过滤步骤,因此不会被考虑进行排名。

于 2015-04-07T20:42:27.207 回答
1

您可以考虑使用调和平均值。使用调和平均值,这 2 个分数基本上是平均的,但是,低分数会比常规平均值更拖累平均值。

你可以使用:

Total_Score = 2*(cosine-score * pagerank) / (cosine-score + pagerank)

假设 pagerank 得分为 0.1,余弦为 0.9,这两个数字的正常平均值为:(0.1 + 0.9)/2 = 0.5,调和平均值为:2*(0.9*0.1)/(0.9 + 0.1) = 0.18

于 2015-05-05T12:18:09.667 回答
0

我了解您正在相对性和重要性之间进行权衡。这是一个多目标优化的问题。

我认为您的第二个解决方案会起作用。这就是所谓的线性标量化。您一定想知道如何优化权重。但是可以通过不同的哲学找到执行此操作的方法,并且可以根据每个变量的首要性逐案找到主观的种类。实际上,如何在这样的问题中优化权重数学的一个研究领域。因此,很难指出哪种模型或方法最适合您的情况。您可能想继续使用上面的 wiki 链接,并尝试在此类问题上找到一些原则,然后按照它们来解决您自己的案例。

于 2013-12-19T07:48:13.990 回答
-1

我无法想象这会有用的单一案例。Pagrank 计算文档作为与其他重要文档的连接来衡量的“重要性”程度(我假设这就是您的意思。边缘是基于术语共现的文档到文档的链接。如果您的意思是别的,请指定)。

余弦分数是两个文档之间的相似性度量。所以你的想法是将成对度量与节点度量结合起来,只找到与另一个文档相似的重要文档?为什么不在另一个文档的自我网络上运行 pagerank?

于 2013-06-10T20:36:22.423 回答