我相信重复名称的最佳选择是通过语音编码器。语音编码器将能够对同名的替代拼写进行去重,以下是一些常用名称的示例:
组:凯瑟琳名称:[凯瑟琳,凯瑟琳,凯瑟琳,凯瑟琳,凯瑟琳,凯瑟琳,凯瑟琳,凯瑟琳,凯瑟琳,凯瑟琳,凯瑟琳,凯瑟琳,凯瑟琳,凯瑟琳,凯瑟琳]
组:Assaf 名称:[Assaf,Asaf]
组:梅根 姓名:[梅根,梅根,梅根,梅根]
组:艾莉森名称:[艾莉森,艾莉森,艾莉森,艾莉森,艾莉森]
==================================================== =============
语音编码器:Caverphone2
---- 姓名组:凯瑟琳 ----
编码名称:{KTRN111111=16}
---- 名称组:Assaf ----
编码名称:{ASF1111111=3}
---- 姓名组:梅根 ----
编码名称:{MKN1111111=5}
---- 姓名组:艾莉森 ----
编码名称:{ALSN111111=6}
==================================================== =============
语音编码器:DoubleMetaphone
---- 姓名组:凯瑟琳 ----
编码名称:{K0RN=16}
---- 名称组:Assaf ----
编码名称:{ASF=3}
---- 姓名组:梅根 ----
编码名称:{MKN=5}
---- 姓名组:艾莉森 ----
编码名称:{ALSN=6}
==================================================== =============
语音编码器:Nysiis
---- 姓名组:凯瑟琳 ----
编码名称:{CATRYN=7, CATARA=6, CATARY=5}
---- 名称组:Assaf ----
编码名称:{ASAF=3}
---- 姓名组:梅根 ----
编码名称:{MAGAN=5}
---- 姓名组:艾莉森 ----
编码名称:{ALASAN=3, ALYSAN=3, ALASYN=2}
==================================================== =============
语音编码器:Soundex
---- 姓名组:凯瑟琳 ----
编码名称:{K365=8, C365=9}
---- 名称组:Assaf ----
编码名称:{A210=3}
---- 姓名组:梅根 ----
编码名称:{M250=5}
---- 姓名组:艾莉森 ----
编码名称:{A425=6}
==================================================== =============
语音编码器:RefinedSoundex
---- 姓名组:凯瑟琳 ----
编码名称:{C30609080=5, K3060908=5, K30609080=4, C3060908=5}
---- 名称组:Assaf ----
编码名称:{A0302=3}
---- 姓名组:梅根 ----
编码名称:{M80408=5}
---- 姓名组:艾莉森 ----
编码名称:{A070308=6}
==================================================== =============
在示例中,您可以看到对于Caverphone和DoubleMetaphone ,所有名称都被编码为相同的字符串。您应该看到什么对您的数据有意义,要使用的编码器取决于名称的语言和词源(即英文名称、德语名称......)