我正在使用pandas-dedupe
将具有拼写错误的数据框链接到具有记录级信息的另一个数据框。这是一个非常简化的示例:
df1 = pd.DataFrame({'a': ['cat', 'dog', 'frog', 'mouse', 'snake'], \
'info': ['mammal', 'mammal', 'amphibian', 'mammal', 'reptile']})
df2 = pd.DataFrame({'a': ['caat', 'mous', 'dog', 'xfrogg', 'snak', 'xyzgiraff']})
我在 csv 文件中有单独的训练数据,如下所示:
df3 = pd.DataFrame({'orig': ['caat', 'mous', 'dog'], 'correct':['cat', 'mouse', 'dog']})
如何df3
在我的调用中将标签作为训练数据传递给pandas_dedupe.link_dataframes
?我已经尝试阅读dedupe
文档,但我不确定如何格式化df3
以便可以将其作为训练数据传递。