假设我对两个句子中的每对单词都有一个单词相似度分数,那么从这些分数中确定整体句子相似度的体面方法是什么?
单词分数是使用来自表示每个单词的向量的余弦相似度来计算的。
既然我有单个单词的分数,那么将单个单词的分数相加并除以两个句子的总字数以获得两个句子的分数是否太天真了?
我已经阅读了有关进一步构建向量来表示句子的信息,使用单词分数,然后再次使用余弦相似度来比较句子。但是我不熟悉如何从现有的单词分数中构造句子向量。我也不知道与上面描述的幼稚方法相比有什么权衡,至少我可以很容易地理解。:)。
非常感谢任何见解。
谢谢。