data-mining - 更好地理解余弦相似度

Question

我正在做一些关于文本挖掘和数据挖掘的研究。我需要更多帮助来理解余弦相似度。我已经阅读过它并注意到互联网上所有给定的示例在通过余弦相似度计算之前都使用了 tf-idf。

我的问题

是否可以仅通过使用将作为数据集的文本文件中的最高频率分布来计算余弦相似度。我浏览的大多数视频和教程都在将其数据输入余弦相似度之前运行了 tf-idf，如果没有，还有哪些其他类型的方程/算法可以输入余弦相似度？

2.为什么用tf-idf归一化来计算余弦相似度？（我可以不进行归一化吗？）余弦相似度是根据 tf-idf 输出的归一化计算得出的。为什么需要标准化？

3. tf-idf 的权重实际上有什么余弦相似度？

score 0 · Accepted Answer

我不明白问题1。

TF-IDF 加权是一种加权方案，适用于很多人处理真实数据（想想 Lucene 搜索）。但它的理论基础有点薄弱。特别是，每个人似乎都在使用稍微不同的版本……是的，它是权重 + 余弦相似度。不过，在实践中，您可能想尝试例如 Okapi BM25 加权。
我也不明白这个问题。角度相似性是有益的，因为文本长度的影响小于其他距离。此外，可以很好地利用稀疏性。至于权重，IDF 是一种启发式算法，只有松散的统计参数：频繁出现的词更有可能随机出现，因此应该具有较小的权重。

也许您可以尝试改写您的问题，以便我可以完全理解它们。还可以搜索以下相关问题：余弦相似度和 tf-idf以及比 tf/idf 和余弦相似度更好的文本文档聚类？

1 回答 1