我有一些使用 Yodlee 从银行获得的数据以及手机上的相应交易消息。两者都有一些描述 - 简短的描述。
例如 -
string1 = "tatasky_TPSL MUMBA IND"
string2 = "tatasky_TPSL"
如果一个完全在另一个内部,它们可以匹配。但是,一些字符串如
string1 = "T.G.I Friday's"
string1 = "TGI Friday's MUMBA MAH"
还是需要搭配的。是否有算法可以给出匹配 2 个描述的置信度?
我有一些使用 Yodlee 从银行获得的数据以及手机上的相应交易消息。两者都有一些描述 - 简短的描述。
例如 -
string1 = "tatasky_TPSL MUMBA IND"
string2 = "tatasky_TPSL"
如果一个完全在另一个内部,它们可以匹配。但是,一些字符串如
string1 = "T.G.I Friday's"
string1 = "TGI Friday's MUMBA MAH"
还是需要搭配的。是否有算法可以给出匹配 2 个描述的置信度?
您可能想要使用标准化编辑距离,也称为 levenstien distance levenstien distance wikipedia。因此,在获得两个字符串之间的 levenstien 距离后,您可以通过除以最长字符串的长度(或这两个字符串的平均值)对其进行归一化。这种标准化的 socre 可以起到信心的作用。你可以找到一些计算 levenstien 距离的 4-5 个 python 包。您也可以在线尝试编辑距离计算器
或者,一种简单的解决方案是称为最长公共子序列的算法,可以在此处使用