0

我有两组短消息,我想计算这两组之间的相似度,并根据它们的语义相似度来确定它们是否在谈论同一个子主题。我知道如何使用成对相似度,我的问题是我想计算两组中所有句子的整体相似度,而不是 2 个句子。有没有办法使用具有余弦相似度的 tf-idf 或 word2vec/doc2vec 来计算总分?

4

2 回答 2

1

基本上我所做的是,取每个句子中每个单词的向量。

然后取两个向量的平均值并做余弦相似度。

当然,在你这样做之前,你需要一个训练有素的 word2vec 模型。doc2vec 的相似性是做同样的事情,因为它在内部保持一个 word2vec 模型。

所以你有两个选择,训练一个 doc2vec,并使用它的相似性构建,或者训练一个 word2vec 并自己完成工作。

于 2019-08-02T15:28:00.400 回答
-1

推断有助于发现语义相似性

于 2021-06-17T02:42:16.927 回答