4

我使用 aa 字典来表示文章中的字数

比如{"name" : 2 , "your": 10, "me", 20}表示“name”出现两次,“your”出现10次,“me”出现20次。

那么,有没有一种好方法来计算这些向量的欧式距离呢?困难在于这些向量的长度不同,有些向量包含某些单词,而有些则不包含。

我知道我肯定可以编写一个长函数来做到这一点,只是寻找一种更简单、更聪明的方法。谢谢

编辑:目标是获得两篇文章之间的相似性并将它们分组

4

2 回答 2

9

就像是

math.sqrt(sum((a[k] - b[k])**2 for k in a.keys()))

其中 a 和 b 是具有相同键的字典。如果您要在不同的向量对之间比较这些值,那么您应该确保每个向量包含完全相同的单词,否则您的距离测量将毫无意义。

您可以仅根据交叉点计算距离:

math.sqrt(sum((a[k] - b[k])**2 for k in set(a.keys()).intersection(set(b.keys()))))

另一种选择是使用联合并将未知值设置为 0

math.sqrt(sum((a.get(k, 0) - b.get(k, 0))**2 for k in set(a.keys()).union(set(b.keys()))))

但是您必须仔细考虑您正在计算的实际内容。

于 2013-05-23T12:05:43.960 回答
0

您还可以在此链接中使用两个向量之间的余弦相似度:http: //mines.humanorientated.com/classes/2010/fall/csci568/portfolio_exports/sphilip/cos.html

于 2013-08-30T20:29:32.600 回答