我正在尝试找到一种方法来搜索文本字段以识别可能相似的行,以便我可以识别它们是否是应该合并的重复项。例如,如果我的数据如下所示:
MyText_Column
- 鲍勃
- 鲍比
- 罗伯特
- 简
- 珍妮
- 珍妮
- 乔
- 约翰
- 乔纳森
GROUP BY 不起作用,因为没有一个值是完全相同的,但是如果我可以有一个查询来返回一行相似的可能性列表,那就太好了。也许有更好的布局,但我想象的是这样的结果:
查询结果
搜索比较 Likely_Match
- 鲍比 96%
- 鲍勃·罗伯特 12%
- 鲍勃·简 0%
- 鲍勃·珍妮 0%
- ......
- 简珍妮 87%
- 简珍妮 69%
- 简乔 12%
然后有了这样的结果,我可以按可能性排序并进行视觉扫描以确定结果是否重复。