1

因此,我曾经使用 jaro_winkler 和其他方法来匹配客户提供给我们的信息,并使用这些 pcts 在我们的数据库中找到客户,因为我们没有像其他大多数地方那样真正拥有的密钥,例如 SSN、SIN、 CPF 之类的东西,我们不能向客户询问此信息,所以...问题是,我试图使用与我过去相同的 jaro_winkler 函数,但现在,让客户能够输入 1 个错字他们的出生日期,但是,现在是坏的部分,取决于对错误错字的处理,它会不断改变结果,一旦客户输入错误的错字,我就计算出 0.96 作为预期结果......但是,你可以见下文,取决于我在哪里更改错字,它不断给我不同的结果。

将年份的最后一个错字从 60 更改为 61

SELECT UTL_MATCH.jaro_winkler ('12/10/1961','12/10/1960') FROM DUAL;

它给了我预期的准确评分,即 0.96

但是使用不同的一天,也有一个错字,如下所示

SELECT UTL_MATCH.jaro_winkler ('11/10/1960','12/10/1960') FROM DUAL;

pct 下降很多并达到 0.873333333333333

我已经尝试结合关于 1 个错误错字的许多不同类型的更改,结果每次都会更改,这取决于我的数据集、处理方式等等,所以,我想知道是否有办法设置匹配更多〜静态〜也许,只是比较整个刺痛并根据整个刺痛给我结果,而不是基于处置和其他

Plues,我尝试使用不同类型的掩码,如 YYYYMMDD 等,到目前为止没有任何效果..

4

0 回答 0