我有2个数据框:
df1:
Date Name Num
2013-11-24 Banana 22.1
2013-11-24 Orange 8.6
2013-11-24 Apple 7.6
2013-11-24 Celery 10.2
df2:
Date Name Num
2013-11-24 Celery 22.1
2013-11-24 0r@nge 8.6
2013-11-24 @ppl3 7.6
2013-11-24 BananaX 10.2
我想找到相似的行,为此,我需要找到Name
两个数据帧之间的相似性我现在正在迭代每个数据帧并计算与另一个数据帧的所有其他行的相似性(这非常耗时)并找到最大值,如果它大于某个阈值,我将对其进行处理。
dfResult = pd.DataFrame()
import pandas as pd
from fuzzywuzzy import fuzz
for indexD, rowD in dfD.iterrows():
for indexS, rowS in dfS.iterrows():
data = pd.DataFrame({"ratio": fuzz.token_set_ratio(rowD['Name'], rowS['Name']),
"indexD": rowD['Num'], "indexS": rowS['Num']}, index=[indexS])
maxMatch = dfTMP.loc[dfTMP['ratio'].idxmax()]
......
......
......
resultMatch = create_match_row(maxMatch, dfD, dfS)
每次迭代后我得到
indexD 1
indexS 4
ratio 100
Name: 3, dtype: int64
1
indexD 2
indexS 1
ratio 35
Name: 0, dtype: int64
2
indexD 3
indexS 3
ratio 45
Name: 2, dtype: int64
3
indexD 4
indexS 4
ratio 33
Name: 3, dtype: int64
max 函数应该返回哪个:
indexD 1
indexS 4
ratio 100
这意味着数据框 1 中的第 1 行类似于数据框 2 中的第 4 行。
我想知道有没有更好的方法可以一次性计算距离并移除内环?name
并找到第一个数据帧中每一行 ( ) 与第二个数据帧的最佳匹配?
预期输出:对于数据帧 1 中的每一行,我喜欢获取数据帧(只是一个简单的索引),它显示数据帧 2 中的哪一行是最相同的。