text - 文档相似度的不同方法（LDA、LSA、余弦）

Question

我有一组简短的文件（每个 1 或 2 段）。我使用了三种不同的文档相似度方法： - tfidf 矩阵上的简单余弦相似度 - 将 LDA 应用于整个语料库，然后使用 LDA 模型为每个文档创建向量，然后我应用余弦相似度。- 在整个语料库上应用 LSA，然后使用 LSA 模型为每个文档创建向量，然后我应用余弦相似度。

基于实验，我在没有任何 LDA 或 LSA 的 tfidf 矩阵上的简单余弦相似度上得到了更好的结果。根据我阅读的内容，LDA 或 LSA 应该会改善结果，但就我而言并非如此！知道为什么 LDA 或 LSA 的结果更差吗？LDA 和 LSA 在训练超过 1000 轮后发现某些文档之间的相似性概率高于 90%，而这些文档完全不相关！

有什么理由吗？

谢谢

score 0 · Accepted Answer

我使用了LDA4j实现并获得了比 TFIDF 更好的结果，同样对于 LSI，我使用了语义向量实现。如果您有自己的实现，请分享模型草图。您还需要对语料库进行规范化以获得更好的结果。

text - 文档相似度的不同方法（LDA、LSA、余弦）

1 回答 1

Related

Reference