A
我需要计算一个文本块 ( ) 在另一个文本块( )中有多少B
。像 soundex 这样的简单算法并没有为我提供很好的结果,因为文本B
中有额外的文本不在/不应该在 text 中A
,这让我的数字失去了意义。我需要确保一定比例的A
在 之内B
,并忽略对B
.
对于在我的情况下可能运行良好的简单算法,我的第一个想法是拆分A
成句子,记下句子的总数,然后搜索B
每个句子的实例以提供百分比。虽然这应该可行,但感觉很hacky,而且我敢肯定,比我更聪明的人设计了一种算法,可以根据类似的原理提供更好的计算。