我发现文档之间的余弦相似度..我是这样做的
D1=(8,0,0,1) 其中 8,0,0,1 是术语 t1, t2, t3 , t4 的 tf-idf 分数
D2=(7,0,0,1)
cos(theta) = (56 + 0 + 0 + 1) / sqrt(64 + 49) sqrt(1 +1)
结果是
余弦(θ)= 5
现在我从这个值评估什么...我不明白 cos(theta)=5 意味着它们之间的相似性...我做对了吗?
我发现文档之间的余弦相似度..我是这样做的
D1=(8,0,0,1) 其中 8,0,0,1 是术语 t1, t2, t3 , t4 的 tf-idf 分数
D2=(7,0,0,1)
cos(theta) = (56 + 0 + 0 + 1) / sqrt(64 + 49) sqrt(1 +1)
结果是
余弦(θ)= 5
现在我从这个值评估什么...我不明白 cos(theta)=5 意味着它们之间的相似性...我做对了吗?
分母是错误的。
余弦相似度定义为
D1 · D2
sim = ———————————
|D1| |D2|
这里
D1 · D2 = (7*8 + 0*0 + 0*0 + 1*1) = 57
______________________ __
|D2| = √ 7^2 + 0^2 + 0^2 + 1^2 = √50
______________________ __
|D1| = √ 8^2 + 0^2 + 0^2 + 1^2 = √65
所以相似度应该是 (57 / √(50 * 65)) = 0.999846142,而不是 5。