我正在使用 jaro-winkler 模糊匹配来匹配名称。
我正在尝试确定相似度得分的截止范围。如果名称差异太大,我想将它们排除在外以进行人工审核。
虽然低于 0.4 的任何东西似乎都是完全不同的名称,但 0.4 的范围似乎非常相似。
但后来我遇到了奇怪的例外情况,该范围内的某些名称完全不同,而有些名称只有一两个字母(参见下面的示例)。
有人可以解释在相同匹配分数范围内匹配差异很大的地方吗?
Estrella ANNELISE 0.42
Arienna IREANNA 0.43
Tayvia I TAYVIA 0.43
Amanda IZABEL 0.44
Hunter JOSHUA 0.44
Ryder CHARLES 0.45
Luis ELIZABETH 0.45
Sebastian JOSE 0.45
Christopher CHISTOPHE 0.46
Genayunique GENAY-UNI 0.46
Andreeaonn ADREEAONN 0.46
Chistopher CHRISTOPH 0.46
Dazharicon DAZHARION 0.46
Jennavecia JENNACVEC 0.46
Valentiria VALENTINA 0.46
Abel SAMMUEL 0.46
Dezarea MarieDEZAREA 0.47
Alexander ALEXZANDE 0.47