我正在对文本文档进行聚类。我正在使用 tf-idf 和余弦相似度。但是,即使我正在使用这些措施,我也不是很明白。tf-idf 权重会影响两个文档之间的相似度计算吗?
假设我有这两个文件:
1- 高大的树木。
2- 高大的树木 高大的树木 高大的树木 高大的树木。
那么这两个文档之间的相似度将为 1,尽管两个文档的 tf-idf 向量不同。与第一个文档相比,第二个文档通常对术语具有更高的权重。
假设两个向量的权重是(假设):
v1(1.0, 1.0)
v2(5.0, 8.0)
计算余弦相似度得到 1.0。
这是两个具有相同项但权重不同的随机向量的草图。
向量之间有一个明显的角度,所以权重应该起作用!
这引发了一个问题,tf/idf 权重在相似度计算中起到什么作用?因为到目前为止我所理解的是,这里的相似性只关心术语的有无。