2

我想找到两个数据帧中字符串的 fuzz.ratio。假设我有 2 个数据帧 df,其中 A、B 列和 bt_df 列 A1、B1 .. 我想比较列 df['B'] 和 bt_df['B1'] 并返回最佳匹配分数及其对应的 id在 df[A] 和 .

df
Out[8]: 
                  A            B
0  11111111111111111111  Cheesesalad
1  22222222222222222222       Cheese
2  33333333333333333333        salad
3  44444444444444444444     BMWSalad
4  55555555555555555555          BMW
5  66666666666666666666        Apple
6  77777777777777777777    Apple####
7  88888888888888888888    Macrooni!

bt_df
Out[9]: 
    A1        B1
0   180336       NaN
1   154263    Cheese
2   130876     Salad
3   204430  Macrooni
4   153490       NaN
5    48879       NaN
6   185495       NaN
7   105099       NaN
8     8645     Apple
9    54038       NaN
10  156523       NaN
11   18156       BWM

Hence the result should be:
B1            matchedstring   score   id
Cheese       Cheese           100     22222222222222222222
.....
.....

提前致谢。

4

0 回答 0