2

我需要比较大量包含特定主题标签的推文,以显示其中内容最多的推文。同样,我需要找到它们之间的成对余弦相似度,并将具有最高成对余弦相似度的推文显示为输出。我已经阅读了很多关于向量空间模型、tf-idf 向量、word2vec/doc2vec 等的内容,但无法完全掌握任何内容。我需要使用 Java 实现相同的功能。scikit-learn 的 TfidfVectorizer 或 NLTK 的同义词集有什么替代品吗?

4

1 回答 1

0

您可以使用 Apache Mahout 对位于文件夹中的所有文本文档进行矢量化处理。

第一步是创建序列文件,然后从这些序列文件创建向量

这个页面描述了如何做到这一点。然后您可以使用RowSimilarityJob类来计算余弦相似度。

于 2017-03-30T09:00:32.433 回答