我正在使用 Levenshtein 距离,这是一个字符串度量,用于测量两个序列之间的差异量,以找到两个字符串之间的差异百分比。我想使用更好的方法来声明字符串是相似的使用字符串中的单词。
例如:假设我有一个包含 2 个段落的字符串,而第二个字符串仅包含第一个字符串的第二个段落。
我知道我可以比较每个字符串的第一个单词,然后是第二个等,但是如果发生像我提出的最后一个示例这样的情况,那将无效。
我在想也许将第一个字符串中的第一个单词与第二个字符串中的所有单词进行比较,但我担心这会使过程非常缓慢。