我有 2 个不同长度的文本(最多 4000 个字符)。我需要根据(部分)释义获得相似率。请注意,相同部分的文本在每个文本中可能位于不同的位置(因此Levenshtein不是解决方案)。
比较过程还应该:
- 不增加博览会。带文字大小
- 表现友好。:)
似乎“关键字的自适应局部对齐”是一种可能的解决方案。
您有任何实现示例吗?首选语言是 PHP,但我可以翻译。:)
您对该主题有任何其他解决方案/想法/经验吗?
感谢您的大力帮助。
我有 2 个不同长度的文本(最多 4000 个字符)。我需要根据(部分)释义获得相似率。请注意,相同部分的文本在每个文本中可能位于不同的位置(因此Levenshtein不是解决方案)。
比较过程还应该:
似乎“关键字的自适应局部对齐”是一种可能的解决方案。
您有任何实现示例吗?首选语言是 PHP,但我可以翻译。:)
您对该主题有任何其他解决方案/想法/经验吗?
感谢您的大力帮助。
看看应该让你的生活更轻松的levenshtein
和函数:similar_text
编辑:@Toto 指出这些可能不适合此应用程序,请参阅下面的评论。
Needleman-Wunsch在我必须匹配不同人给同一事物的名称的应用程序中工作得很好。