我需要比较大量包含特定主题标签的推文,以显示其中内容最多的推文。同样,我需要找到它们之间的成对余弦相似度,并将具有最高成对余弦相似度的推文显示为输出。我已经阅读了很多关于向量空间模型、tf-idf 向量、word2vec/doc2vec 等的内容,但无法完全掌握任何内容。我需要使用 Java 实现相同的功能。scikit-learn 的 TfidfVectorizer 或 NLTK 的同义词集有什么替代品吗?
问问题
1091 次