2

过程的一部分需要应用字符串相似度算法。

这个过程的结果将被存储并产生让我们说 SS_Dataset。

基于此数据集,必须做出进一步的决定。

我的问题是:

  • 我应该应用一种或多种字符串相似性算法来生成 SS_Dataset 吗?

  • 计算“距离”和“听起来像”相似度的算法之间的任何比较?

一组算法是否比另一组产生更准确的结果?组合是否能提供更准确的相似性结果?

  • 你能推荐你使用过的实现吗?

我的实现将包括来自以下库的包

http://www.dcs.shef.ac.uk/~sam/simmetrics.html

http://jtmt.sourceforge.net/

4

1 回答 1

0

哪个最好完全取决于您要做什么。Soundex 和最小编辑距离(又名 Levenshtein)被广泛使用,因为它们易于理解。当您尝试处理输入中的拼写错误或拼写错误时,它们非常有用。很抱歉,我无能为力,“你必须自己试验一下这些对你的特定目的的效果如何。”

于 2010-04-21T23:01:40.257 回答