0

我正在使用传播激活来获取给定概念的相关概念。

如果我想计算“伦敦”和“巴黎”之间的相似度,我会得到 2 个向量,例如:

vector for 'Paris':
Paris : 1.0
City : 0.9
Capital : 0.7
France : 0.6
Europe : 0.5
...

vector for 'London':
London : 1.0
City : 0.9
England : 0.9
United Kingdom : 0.8
Europe : 0.5
...

问题是向量可以有不同的长度。在这种情况下可以使用什么相似性度量?据我所知,余弦测量只能应用于具有相同大小的向量。

我找到了这些包: SimMetrics:http ://staffwww.dcs.shef.ac.uk/people/S.Chapman/simmetrics.html 和 COLT:http ://nlp.stanford.edu/nlp/javadoc/colt-docs /overview-summary.html

如何在我的场景中使用它们?

谢谢!穆龙

4

1 回答 1

0

您可以将所有未分配的值默认为 0 以获得匹配的向量,然后使用您选择的任何距离度量。不过,您可能希望通过某种方式对不同属性进行加权,因为某些属性可能比其他属性更能代表相关性。

另外,伦敦比巴黎更“欧洲”吗?

于 2011-04-14T16:54:54.707 回答