fuzzywuzzy - 如何在模糊匹配熊猫重复数据删除单个数据帧中获取行索引

翻译自：https://stackoverflow.com/questions/69937428 2021-11-12T02:58:45.543

23 次

考虑到我有以下数据集df

我正在使用该pandas_dedupe包通过执行以下命令来检查模糊匹配：

dup=pandas_dedupe.dedupe_dataframe(df,['Name','BirthDate'])

我希望得到以下输出：

指数	姓名	出生日期	匹配索引	匹配名称	match_BirthDate
0	丹尼斯·摩尔	2017-11-18	5	丹尼斯·摩尔	2017-11-18
1	罗伯特·奈特	2008-04-24	6	罗伯特·克梅特	2008-04-24
2	艾丽卡·马丁内斯	1940-10-28	2	艾丽卡·马丁内斯	1940-10-28
3	加里·吉尔	1993-05-05	3	加里·吉尔	1993-05-05
4	马修冈萨雷斯	2016-07-16	4	马修冈萨雷斯	2016-07-16
5	丹尼斯·摩尔	2017-11-18	0	丹尼斯·摩尔	2017-11-18
6	罗伯特·克梅特	2008-04-24	1	罗伯特·奈特	2008-04-24

我怎样才能做到这一点？

0 回答 0