java - 如何使用 Java 找到两个文本文档之间的余弦相似度？

Question

我需要比较大量包含特定主题标签的推文，以显示其中内容最多的推文。同样，我需要找到它们之间的成对余弦相似度，并将具有最高成对余弦相似度的推文显示为输出。我已经阅读了很多关于向量空间模型、tf-idf 向量、word2vec/doc2vec 等的内容，但无法完全掌握任何内容。我需要使用 Java 实现相同的功能。scikit-learn 的 TfidfVectorizer 或 NLTK 的同义词集有什么替代品吗？

score 0 · Accepted Answer

您可以使用 Apache Mahout 对位于文件夹中的所有文本文档进行矢量化处理。

第一步是创建序列文件，然后从这些序列文件创建向量。

这个页面描述了如何做到这一点。然后您可以使用RowSimilarityJob类来计算余弦相似度。

java - 如何使用 Java 找到两个文本文档之间的余弦相似度？

1 回答 1

Related

Reference