0

我正在使用pandas-dedupe将具有拼写错误的数据框链接到具有记录级信息的另一个数据框。这是一个非常简化的示例:

df1 = pd.DataFrame({'a': ['cat', 'dog', 'frog', 'mouse', 'snake'], \
       'info': ['mammal', 'mammal', 'amphibian', 'mammal', 'reptile']})

df2 = pd.DataFrame({'a': ['caat', 'mous', 'dog', 'xfrogg', 'snak', 'xyzgiraff']})

我在 csv 文件中有单独的训练数据,如下所示:

df3 = pd.DataFrame({'orig': ['caat', 'mous', 'dog'], 'correct':['cat', 'mouse', 'dog']})

如何df3在我的调用中将标签作为训练数据传递给pandas_dedupe.link_dataframes?我已经尝试阅读dedupe文档,但我不确定如何格式化df3以便可以将其作为训练数据传递。

4

0 回答 0