我正在尝试计算给定段落/成绩单中的语义连贯性,即。如果有人在谈论某件事或主题时偏离了轨道 - 更具体地说是描述一张图片(图片可能有很多子细节)。
例如 -
成绩单1:我喜欢运动。世界上有这么多体育迷。
成绩单2:我喜欢运动。一种致命的病毒正在世界范围内传播。
Transcript 1 的语义连贯性应该很高,而 Transcript 2 的语义连贯性应该很低。我正在使用 BERT(bert-as-service)为句子生成句子嵌入。然后,我尝试通过计算句子嵌入向量之间的余弦相似度来比较给定转录本中的句子 i 和 i+1。我也尝试过使用滑动窗口,有和没有重叠来计算余弦相似度。
我遇到的问题是,两个句子的余弦相似度非常接近,例如上面的示例,而我希望两者之间的差异更大。
我正在考虑使用一个在维基百科数据上训练的 LSA 模型,看看我是否能看到更好的差异化。有没有更好的方法来做到这一点?