2

A我需要计算一个文本块 ( ) 在另一个文本块( )中有多少B。像 soundex 这样的简单算法并没有为我提供很好的结果,因为文本B中有额外的文本不在/不应该在 text 中A,这让我的数字失去了意义。我需要确保一定比例的A在 之内B,并忽略对B.

对于在我的情况下可能运行良好的简单算法,我的第一个想法是拆分A成句子,记下句子的总数,然后搜索B每个句子的实例以提供百分比。虽然这应该可行,但感觉很hacky,而且我敢肯定,比我更聪明的人设计了一种算法,可以根据类似的原理提供更好的计算。

4

1 回答 1

0

最长公共子序列看起来最适合您的目的。

于 2013-05-15T19:44:49.510 回答