我正在寻找有关分隔名称的参考:“John A. Doe”部分,first=John,middle=A.,last=Doe。在墨西哥,我们有父名、母名、名和姓,并且可以用不同的排列方式书写,因此问题相当复杂。
由于它依赖于数据,我们正在使用匹配软件来计算每个单词的分数,以便我们做出决定(它基于一个大数据库)。输入数据不干净,它是从一些政府网页导入的,并且经过人工过滤,因此它可能包含必须识别的垃圾。有什么建议么?
[编辑] 例子:
姓名: 哈维尔·阿卜杜勒·科尔多瓦·甘达拉 常见排列(或可能出现在 gvt 数据中指代同一个人): 科尔多瓦·甘达拉·哈维尔·阿卜杜勒 哈维尔·A·科尔多瓦·甘达拉 哈维尔·阿卜杜勒·科尔多瓦 G. 父亲=科尔多瓦 母亲=甘达拉 第一名:哈维尔 第二个:阿卜杜勒
姓名:玛丽亚·德拉·卢斯·桑切斯·马丁内斯 父亲:桑切斯 母亲:马丁内斯 第一个给出:玛丽亚德拉卢斯
名称: Paloma Viridiana Alin Arias Medina 父亲:阿里亚斯 母系:麦地那 第一个给出:帕洛玛 第二名:Viridiana Alin
正如我所说,每个单词的含义取决于分数。没有办法知道
维里迪亚纳和
阿林如果不是来自乐谱,则被命名。
我们有一个非常强大的数据库(大约 8000 万条记录),因此我们可以使用评分系统。我正在设计一些使用它但寻找其他参考的算法。