我在迪拜的一家银行看到了实习机会。他们有一个明确的问题陈述,要在 2 个月内解决。他们只告诉我们两行 -
“基本上问题在于名称匹配逻辑。有两个字段(变量)——都是雇主名称,而且是一个自由文本字段。所以我们需要编写一个程序来匹配这两个变量。”
任何人都可以帮助我理解它吗?它只是一个简单的模式匹配的东西吗?任何帮助/意见将不胜感激。
我在迪拜的一家银行看到了实习机会。他们有一个明确的问题陈述,要在 2 个月内解决。他们只告诉我们两行 -
“基本上问题在于名称匹配逻辑。有两个字段(变量)——都是雇主名称,而且是一个自由文本字段。所以我们需要编写一个程序来匹配这两个变量。”
任何人都可以帮助我理解它吗?它只是一个简单的模式匹配的东西吗?任何帮助/意见将不胜感激。
我认为这就是他们所要求的:
它们有两个相关数据来源,例如,一个来自内部数据库,另一个来自名片输入。
因为这两个字段是自由文本字段,所以会有不一致的地方。例如,Nitin Garg
、 或Garg, Nitin
、 或Mr. Nitin Garg
等。这是卡扎菲的一个极端案例。
您应该做的是找到一种将特定人的所有名称匹配在一起的方法。
简而言之,通过雇主名称将两条数据匹配在一起,同时考虑可能的不一致。
曾几何时,尽管有拼写错误和不同的音译,但名称匹配问题有一个很好的简单答案 - Soundex。但是人们已经在这个问题上投入了大量的工作,所以现在你可能应该使用这项工作的结果,它内置在数据库和附加组件中——有些是免费的。请参阅使用 T-SQL和http://anastasiosyal.com/archive/2009/01/11/18.aspx和http://msdn.microsoft.com/en-us/magazine/cc163731.aspx进行模糊匹配