0

我有一些使用 Yodlee 从银行获得的数据以及手机上的相应交易消息。两者都有一些描述 - 简短的描述。

例如 -

string1 = "tatasky_TPSL MUMBA IND"
string2 = "tatasky_TPSL"

如果一个完全在另一个内部,它们可以匹配。但是,一些字符串如

string1 = "T.G.I Friday's"
string1 = "TGI Friday's MUMBA MAH" 

还是需要搭配的。是否有算法可以给出匹配 2 个描述的置信度?

4

1 回答 1

1

您可能想要使用标准化编辑距离,也称为 levenstien distance levenstien distance wikipedia。因此,在获得两个字符串之间的 levenstien 距离后,您可以通过除以最长字符串的长度(或这两个字符串的平均值)对其进行归一化。这种标准化的 socre 可以起到信心的作用。你可以找到一些计算 levenstien 距离的 4-5 个 python 包。您也可以在线尝试编辑距离计算器

或者,一种简单的解决方案是称为最长公共子序列的算法,可以在此处使用

于 2015-05-16T08:20:34.150 回答