我有一组简短的文件(每个 1 或 2 段)。我使用了三种不同的文档相似度方法: - tfidf 矩阵上的简单余弦相似度 - 将 LDA 应用于整个语料库,然后使用 LDA 模型为每个文档创建向量,然后我应用余弦相似度。- 在整个语料库上应用 LSA,然后使用 LSA 模型为每个文档创建向量,然后我应用余弦相似度。
基于实验,我在没有任何 LDA 或 LSA 的 tfidf 矩阵上的简单余弦相似度上得到了更好的结果。根据我阅读的内容,LDA 或 LSA 应该会改善结果,但就我而言并非如此!知道为什么 LDA 或 LSA 的结果更差吗?LDA 和 LSA 在训练超过 1000 轮后发现某些文档之间的相似性概率高于 90%,而这些文档完全不相关!
有什么理由吗?
谢谢