我正在做一些关于文本挖掘和数据挖掘的研究。我需要更多帮助来理解余弦相似度。我已经阅读过它并注意到互联网上所有给定的示例在通过余弦相似度计算之前都使用了 tf-idf。
我的问题
是否可以仅通过使用将作为数据集的文本文件中的最高频率分布来计算余弦相似度。我浏览的大多数视频和教程都在将其数据输入余弦相似度之前运行了 tf-idf,如果没有,还有哪些其他类型的方程/算法可以输入余弦相似度?
2.为什么用tf-idf归一化来计算余弦相似度?(我可以不进行归一化吗?)余弦相似度是根据 tf-idf 输出的归一化计算得出的。为什么需要标准化?
3. tf-idf 的权重实际上有什么余弦相似度?