作为联系人管理系统的一部分,我有一个庞大的姓名数据库。人们经常对此进行编辑,因此我们遇到了以不同形式存在的同一个人的问题(约翰史密斯和乔纳森史密斯)。我研究了单词的相似性,但很容易想到根本不相似的名称变化(Richard vs Dick)。我想知道是否有可以用来检测和纠正此类错误的常见英文名字变体列表。
问问题
3032 次
2 回答
3
我会在人名上抓取所有维基百科页面(有可用的维基百科数据转储),例如http://en.wikipedia.org/wiki/Teresa(来自http://en.wikipedia.org/wiki/Category :English_given_names),并创建一个索引,您可以使用它来建议人们正确的表格(您将根据数据库中名字变体的数量对他们进行排名)。不幸的是我不知道。这样的数据库。
于 2010-10-12T16:29:06.887 回答
3
该线程指向人口普查中的昵称/名字映射列表:
于 2015-07-24T19:24:16.450 回答