我想在大型数据库中找到与 COMPANYNAME 和 ADDRESSLINE1 等字段匹配的可能的候选重复记录
例子:
对于具有以下 COMPANYNAME 的记录:
- “Acme, Inc.”
我希望我的查询将具有这些 COMPANYNAME 值的其他记录作为可能的重复值吐出:
- “阿克米公司”
- “Acme,合并”
- “极致”
我知道如何进行连接、相关子查询等,以执行提取我想要的数据集的机制。我知道之前已经在这里介绍过。我有兴趣听到有关进行模糊搜索的最佳方法的想法 - 我应该使用全文索引还是 soundex 函数或其他我对此过程不知道的东西?(我使用的是 SQL Server 2005)
任何帮助表示赞赏!