我目前正在开展一个项目,该项目需要我将我们的乐队和场地数据库与许多外部服务相匹配。
基本上,我正在寻找确定两个名称是否相同的最佳方法的方向。例如:
- 我们的数据库场地名称 - “The Pig and Whistle”
- 服务 1 - “猪和哨子”
- 服务 2 - “猪与哨子”
- 等等等等
我认为主要区别在于缺少“the”或使用“&”而不是“and”,但也可能存在拼写略有不同和单词顺序不同等问题。
在这种情况下通常使用哪些算法/技术,我是否需要过滤噪音词或进行某种拼写检查类型匹配?
你见过 c# 中类似的例子吗?
更新:如果有人对 ac# 示例感兴趣,您可以通过谷歌代码搜索 Levenshtein 距离来访问一个堆