3

假设我对两个句子中的每对单词都有一个单词相似度分数,那么从这些分数中确定整体句子相似度的体面方法是什么?

单词分数是使用来自表示每个单词的向量的余弦相似度来计算的。

既然我有单个单词的分数,那么将单个单词的分数相加并除以两个句子的总字数以获得两个句子的分数是否太天真了?

我已经阅读了有关进一步构建向量来表示句子的信息,使用单词分数,然后再次使用余弦相似度来比较句子。但是我不熟悉如何从现有的单词分数中构造句子向量。我也不知道与上面描述的幼稚方法相比有什么权衡,至少我可以很容易地理解。:)。

非常感谢任何见解。

谢谢。

4

2 回答 2

0

我最终做的是取每组向量的平均值,然后对这两个平均值应用余弦相似度,从而得到句子的分数。

我不确定这种方法在数学上有多合理,但我已经在其他地方看到过它(比如 python 的 gensim)。

于 2015-01-28T20:35:01.517 回答
0

最好对单词使用上下文词嵌入(向量表示)。

这是一种通过成对单词相似度来判断句子相似度的方法:BERTScore

在此处输入图像描述

你可以在这里检查数学。

于 2021-09-20T13:22:07.893 回答