0

我在excel中有2个数据库。在数据库 A 中,我有各种公司、城市和慈善机构的名称。数据库 B 也是一样。但是数据库 B 是由客户填写的。因此,我得到了很多随机错误和/或合法名称的变化。

匹配名称的最佳方法是什么?

以下是一些示例差异:

  1. ABC 市可能会显示为 ABC 市公司
  2. ABC Corporation 可能只是作为 ABCcorporation(他们忘记了一个空格)
  3. ABC大学可以简称为Univ of ABC
  4. Canadian Tire 可能会显示为 Canadian Tire Store #503
  5. 加拿大轮胎可能像加拿大轮胎一样拼写错误
  6. ABC Corp 可能会显示为 ABC Inc

有没有好的解决方案?我知道这个问题有点远,但如果我能做到这一点,我每年都会为我公司的员工节省数千小时......

任何建议将不胜感激

4

2 回答 2

2

这是一个非常复杂的问题。查找“主数据管理”和“重复数据删除”。这篇维基百科文章是一个很好的起点。

这个问题最好分小块解决。我的建议是阅读一些内容并实现一个列出潜在重复项的工具以及一些合并它们的简单方法。这里的关键词是潜力;你不想做错误的合并,误报很可能而且非常有害。

于 2012-10-23T20:31:56.723 回答
0

您可以使用正则表达式来过滤这些数据库。

http://en.wikipedia.org/wiki/Regular_expression

http://www.zytrax.com/tech/web/regex.htm

您可以根据公司名称的相关部分进行程序模式匹配。例如,如果有人输入 Microsoft Corporation of Redmond,并且您的程序模式与“Microsoft”匹配,那么您将获得成功。

于 2012-10-23T19:02:57.710 回答