考虑到我有以下数据集df
指数 | 姓名 | 出生日期 |
---|---|---|
0 | 丹尼斯·摩尔 | 2017-11-18 |
1 | 罗伯特·奈特 | 2008-04-24 |
2 | 艾丽卡·马丁内斯 | 1940-10-28 |
3 | 加里·吉尔 | 1993-05-05 |
4 | 马修冈萨雷斯 | 2016-07-16 |
5 | 丹尼斯·摩尔 | 2017-11-18 |
6 | 罗伯特·克梅特 | 2008-04-24 |
我正在使用该pandas_dedupe
包通过执行以下命令来检查模糊匹配:
dup=pandas_dedupe.dedupe_dataframe(df,['Name','BirthDate'])
我希望得到以下输出:
指数 | 姓名 | 出生日期 | 匹配索引 | 匹配名称 | match_BirthDate |
---|---|---|---|---|---|
0 | 丹尼斯·摩尔 | 2017-11-18 | 5 | 丹尼斯·摩尔 | 2017-11-18 |
1 | 罗伯特·奈特 | 2008-04-24 | 6 | 罗伯特·克梅特 | 2008-04-24 |
2 | 艾丽卡·马丁内斯 | 1940-10-28 | 2 | 艾丽卡·马丁内斯 | 1940-10-28 |
3 | 加里·吉尔 | 1993-05-05 | 3 | 加里·吉尔 | 1993-05-05 |
4 | 马修冈萨雷斯 | 2016-07-16 | 4 | 马修冈萨雷斯 | 2016-07-16 |
5 | 丹尼斯·摩尔 | 2017-11-18 | 0 | 丹尼斯·摩尔 | 2017-11-18 |
6 | 罗伯特·克梅特 | 2008-04-24 | 1 | 罗伯特·奈特 | 2008-04-24 |
我怎样才能做到这一点?