3

我有 2 个不同长度的文本(最多 4000 个字符)。我需要根据(部分)释义获得相似率。请注意,相同部分的文本在每个文本中可能位于不同的位置(因此Levenshtein不是解决方案)。

比较过程还应该:

  • 不增加博览会。带文字大小
  • 表现友好。:)

似乎“关键字的自适应局部对齐”是一种可能的解决方案。

您有任何实现示例吗?首选语言是 PHP,但我可以翻译。:)

您对该主题有任何其他解决方案/想法/经验吗?

感谢您的大力帮助。

4

2 回答 2

4

看看应该让你的生活更轻松的levenshtein和函数:similar_text

编辑:@Toto 指出这些可能不适合此应用程序,请参阅下面的评论。

于 2009-08-19T12:11:01.730 回答
0

Needleman-Wunsch在我必须匹配不同人给同一事物的名称的应用程序中工作得很好。

于 2009-08-19T12:31:15.983 回答