Levenshtein distance 是一种衡量单词之间差异的方法,但对于短语而言并非如此。
是否有一个很好的距离度量来衡量短语之间的差异?
例如,如果短语 1 由 n 个单词 x1 x2 x_n 组成,而短语 2 由 m 个单词 y1 y2 y_m 组成。我认为它们应该按单词模糊对齐,然后对齐的单词应该对它们的相似程度进行评分,并且应该对未对齐的单词应用某种间隙惩罚。这些正分数和负分数应该以某种方式汇总。似乎有一些启发式方法。
是否有现有的解决方案来衡量短语之间的相似性?Python 是首选,但其他解决方案也可以。谢谢。