0

我有一个包含多个文档的语料库,例如 10 个文档。这个想法是计算它们之间的相似性并将最相似的组合到一个文档中。所以结果可能是 4 个文档。到目前为止,我所做的是遍历文档并计算最相似的两个文档并将它们组合成一个文档,依此类推,直到达到阈值。我通过获取整个文档的平均向量来使用 Word2vec 向量。问题是当我进行迭代时,文档越长越相似,即使由于存在更多单词而不那么相似。关于如何解决这个问题的任何想法?

我使用了谷歌 Word2vec 模型。原因:语料库不大,无法训练模型。

注意:我不想对某些规范使用主题建模。而且文件真的很短,一半以上可能是一句话。

我真的很感谢你的建议。

4

0 回答 0