我正在使用 TF/IDF 来计算相似度。例如,如果我有以下两个文档。
Doc A => cat dog
Doc B => dog sparrow
这是正常的,它的相似性是 50%,但是当我计算它的 TF/IDF 时。如下
Doc A 的 Tf 值
dog tf = 0.5
cat tf = 0.5
Doc B 的 Tf 值
dog tf = 0.5
sparrow tf = 0.5
文档 A 的 IDF 值
dog idf = -0.4055
cat idf = 0
Doc B 的 IDF 值
dog idf = -0.4055 ( without +1 formula 0.6931)
sparrow idf = 0
文档 A 的 TF/IDF 值
0.5x-0.4055 + 0.5x0 = -0.20275
Doc B 的 TF/IDF 值
0.5x-0.4055 + 0.5x0 = -0.20275
现在看起来有 -0.20275 相似度。是吗?还是我错过了什么?或者还有什么下一步?请告诉我,这样我也可以计算出来。
我使用了维基百科提到的 tf/idf 公式