余弦相似度:通常在比较两个文档时使用。它测量两个向量之间的角度。如果该值为零,则两个向量之间的角度为 90 度,并且它们不共享任何项。如果值为 1,则两个向量除了幅度之外是相同的。当数据稀疏、不对称并且缺乏特征的相似性时,使用余弦。
当我将余弦用于两个向量(文档)时,我将根据下表获得结果
id Doc1(TF) Doc2 (TF)
London 5 3
Is 2 2
Nice 10 3
City 0 1
然后将其标准化到最后。然后,我将得到余弦 Cos(v1,v2)= 90%
但是,如果我有 10 份文件,这意味着我得到了
Cos(v1,v2)= ?
Cos(v1,v3)= ?
Cos(v1,v5)= ?
Cos(v1,v6)= ?
Cos(v1,v7)= ?
Cos(v1,v8)= ?
Cos(v1,v9)= ?
Cos(v2,v3)= ?
Cos(v2,v4)= ?
Cos(v2,v5)= ?
And so o n
Until
Cos(v9,v10)= ?
然后我必须比较结果。
有什么快速的方法吗?我怎样才能得到 10 个或更多文件的 cos。
我知道我怎样才能得到两个文件的余弦但是我怎样才能得到更多的文件呢?我想要数学方法。