python - 如何使用 TF-IDF 或 LSA 和 gensim 计算单词相似度？

Question

我知道 gensim 中的 word2vec 可以计算单词之间的相似度。但现在我想使用 TF-IDF 或 LSA 和gensim来计算单词相似度。怎么做？

注意：使用 LSA 和 gensim 计算文档相似度很容易：http ://radimrehurek.com/gensim/wiki.html

score 1 · Accepted Answer

TF-IDF 是一种加权方案，所以it's not an alternative to LSA.

将您的问题想象为“n”个文档的“m”个术语的矩阵。矩阵的每个条目 Aij 代表文档“j”中术语“i”的权重。这是您使用 TF-IDF 的地方。要知道在矩阵的每个单元格中放入什么。

然后，如果它适合您的应用程序，您可以使用 LSA 减小矩阵的尺寸。

我希望这能解决一点问题。

1 回答 1