java - 关于字符串相似度度量 (Java) 的建议。距离，听起来还是组合？

Question

过程的一部分需要应用字符串相似度算法。

这个过程的结果将被存储并产生让我们说 SS_Dataset。

基于此数据集，必须做出进一步的决定。

我的问题是：

一组算法是否比另一组产生更准确的结果？组合是否能提供更准确的相似性结果？

我的实现将包括来自以下库的包

score 0 · Accepted Answer

哪个最好完全取决于您要做什么。Soundex 和最小编辑距离（又名 Levenshtein）被广泛使用，因为它们易于理解。当您尝试处理输入中的拼写错误或拼写错误时，它们非常有用。很抱歉，我无能为力，“你必须自己试验一下这些对你的特定目的的效果如何。”

1 回答 1