0

我有一组简短的文件(每个 1 或 2 段)。我使用了三种不同的文档相似度方法: - tfidf 矩阵上的简单余弦相似度 - 将 LDA 应用于整个语料库,然后使用 LDA 模型为每个文档创建向量,然后我应用余弦相似度。- 在整个语料库上应用 LSA,然后使用 LSA 模型为每个文档创建向量,然后我应用余弦相似度。

基于实验,我在没有任何 LDA 或 LSA 的 tfidf 矩阵上的简单余弦相似度上得到了更好的结果。根据我阅读的内容,LDA 或 LSA 应该会改善结果,但就我而言并非如此!知道为什么 LDA 或 LSA 的结果更差吗?LDA 和 LSA 在训练超过 1000 轮后发现某些文档之间的相似性概率高于 90%,而这些文档完全不相关!

有什么理由吗?

谢谢

4

1 回答 1

0

我使用了LDA4j实现并获得了比 TFIDF 更好的结果,同样对于 LSI,我使用了语义向量实现。如果您有自己的实现,请分享模型草图。您还需要对语料库进行规范化以获得更好的结果。

于 2017-12-03T09:45:01.383 回答