问题标签 [python-dedupe]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
39 浏览

python - 如何解决 pandas 中节点格式错误或字符串错误的问题?

在这里,我有这个数据框,我试图从第 2 列中的每个数组中删除重复元素,如下所示,并在第 3 列中删除结果数组。

我正在使用以下代码,但它显示了格式错误的节点或字符串的错误。请帮助解决这个问题。

0 投票
0 回答
7 浏览

python - python去重和控制canon id的选择

也许是一个简单的问题.. 我意识到重复数据删除是一个匹配过程,它(使用许多很棒的算法)为我提供了匹配集,并与 canon_id 组合在一起。但是是否可以保证在运行之间使用相同的佳能 ID?对它如何选择使用哪个佳能 ID 有任何见解吗?(甚至更好 - 是否有任何关于它如何做出决定的控制?)

抱歉,对于重复数据删除人员来说,这更像是一个支持问题。但想知道是否有人知道这些细节。也许我在他们的文档中遗漏了它。谢谢!

0 投票
0 回答
25 浏览

python - 在 pandas_dedupe 中没有键列的键错误

我是 dedupe 库的新手,并且在我的一个项目中使用了 pandas_dedupe。

这是基于作为参数传递给函数的多列的 pandas 数据帧中联系人的简单重复数据删除。



不知道'street'这里的列是什么意思,我的数据框没有这样的列,我检查了很多,但没有找到任何结果,任何帮助将不胜感激。

0 投票
0 回答
12 浏览

python - Pandas Dedupe:提供自创训练数据

我正在使用pandas-dedupe将具有拼写错误的数据框链接到具有记录级信息的另一个数据框。这是一个非常简化的示例:

我在 csv 文件中有单独的训练数据,如下所示:

如何df3在我的调用中将标签作为训练数据传递给pandas_dedupe.link_dataframes?我已经尝试阅读dedupe文档,但我不确定如何格式化df3以便可以将其作为训练数据传递。