2

我有一个应用程序可以存储和跟踪访问者。这些访问者是由调度程序(用户)在设置访问时根据需要在系统中创建的。问题是大多数时候访问者唯一重要的唯一标识符如下:

  • 公司名

同一个人存在重复记录的风险是固有的,调度程序可能会输入新的访问者记录,而不是在系统中搜索以该名称存在的人。

当我遇到有人输入同名访客时,我会显示一个警告对话框,其中包含有关此人可能是谁的各种建议,但即使这样也不够好。

我可以输入“Jim Jones”,这个人可能以“James Jones”或“Jimmy Jones”的身份存在于系统中。我看到有可用的名称识别软件包,但它们很贵,而且肯定比我要找的更重。

有人知道在哪里可以找到我可以通过编程方式访问以查找潜在名称变体的免费或开源字典文件吗?软件或在线服务会很好,但即使只是数据转储或简单的文本文件也可以。

我知道即使这样也不会阻止重复的访客记录,我只是试图将其保持在最低限度,因此它不是一个关键功能。

4

1 回答 1

2

查看 Moby 项目 (http://icon.shef.ac.uk/Moby/mwords.html) 了解常见的名字和姓氏。您可以使用 metaphone 和 soundex 等工具对相似名称进行预计算,并使用它来识别潜在的匹配项。您还提到了一些更难管理的公司名称,因为它们可以由很多东西组成,为此可以查看 12-dicts 单词列表 (http://wordlist.sourceforge.net/) 2+2lemma该软件包中提供的列表提供了多种形式,这些形式具有共同的词根,可与类似的拼写解决方案结合使用以提供改进的结果。

于 2011-05-06T12:48:02.590 回答