1

Lucene 模糊匹配使用基本的editDistance 算法来实现模糊匹配。Lucene 是否还有其他使用其他相似性度量的模糊匹配实现?他们也应该识别同音字。还请比较 lucene 的各种模糊匹配方法。

4

2 回答 2

1

不要认为 Lucene 提供任何其他字符串匹配算法,但是您可以自己添加一个。是一个很好的库,其中包含最知名的字符串比较算法。

于 2010-05-18T13:20:20.073 回答
0

我一直在做的事情非常简单,并且适用于大多数场景(在我的场景中,我有 670 万个事件名称,来自一个对事件名称进行了轻微更改或向下钻取版本的脏表,以及我的表m 模糊匹配具有所有干净的事件名称)

``select distinct a.Column, b.Column 
from tableA a 
inner join tableB b 
on '%' + SUBSTRING(b.Column, x, y) + '%' = '%' + SUBSTRING(a.Column, x, y) + '%'
order by a.Column asc;``

我的问题是,如果我只是简单地做了一个没有子字符串的模糊匹配,我只会得到大约 11 个结果,因为两者之间的命名约定非常模糊。此解决方案显示所有向下钻取式事件与干净表中更广泛的对应项匹配。

于 2018-08-07T16:01:27.617 回答