问题标签 [python-dedupe]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3006 浏览

python - Python - 重复数据删除问题:TypeError:不可散列的类型:'numpy.ndarray'

我无法运行重复数据删除。我正在尝试使用此库从大量地址中删除重复项。这是我的代码:

具体来说,当我运行它时,我得到以下信息:

0 投票
1 回答
374 浏览

python - 当个人有多个地址时,如何为 Dedupe 制作地名录?

根据数据制作的 Dedupe文档,地名词典似乎需要有干净、不同的个人级别数据。

如果个人多次搬家、换工作等,你会怎么做?包括每个人的多次观察并智能填写空白?

0 投票
2 回答
735 浏览

python - 如何使用 python Dedupe 有效地将记录链接到大表?

我正在尝试使用该Dedupe包将一个小的杂乱数据合并到一个规范表中。由于规范表非常大(1.22 亿行),我无法将其全部加载到内存中。

我基于使用的当前方法需要一整天的时间来处理测试数据:存储在 dict 中的 300k 行杂乱数据表和存储在 mysql 中的 600k 行规范数据表。如果我在内存中完成所有操作(将规范表作为字典读取)只需要半小时。

有没有办法让这更有效?

0 投票
2 回答
1775 浏览

python - 使用 Python Dedupe 库为匹配记录设置显式规则

我正在使用 Dedupe 库将人员记录相互匹配。我的数据包括姓名、出生日期、地址、电话号码和其他个人身份信息。

这是我的问题:如果两个记录具有匹配的姓名和电话号码(例如),我总是希望以 100% 的置信度匹配它们。

这是我的一些代码的示例:

在 Dedupe 库中,我有什么方法可以显式匹配两个或多个字段?根据文档,“交互字段乘以多个变量的值。” (https://dedupe.readthedocs.org/en/latest/Variable-definition.html#interaction)。我想实施一个严格的规则,它与 100% 的置信度匹配 - 而不仅仅是乘以变量的值。我问的原因是我发现 Dedupe 偶尔会错过这两个标准的一些匹配项(可能是我训练时间不够长的结果,但无论如何,我只想将这些匹配项硬编码到我的脚本中)。

有什么建议么?

0 投票
1 回答
11588 浏览

python - Python中的重复数据删除

在浏览 Python 中用于记录重复数据删除的 Dedupe 库的示例时,我发现它在输出文件中创建了一个Cluster Id列,根据文档表明哪些记录相互引用。虽然我无法找出集群 ID之间的任何关系以及这如何帮助查找重复记录。如果有人对此有所了解,请向我解释一下。这是重复数据删除的代码。

提前致谢

0 投票
3 回答
1351 浏览

python - Python 去重记录 - 去重

我想使用https://github.com/datamade/dedupe对 python 中的一些记录进行重复数据删除。看看他们的例子

与例如由 pandas 从 pd.Datafrmae 甚至普通的 pd.Dataframe 创建的字典相比,该字典消耗了相当多的内存。

如果需要这种格式,如何有效地将 pd.Dataframe 转换为这样的字典?

编辑

pandas 生成的示例

示例重复数据删除的期望

0 投票
1 回答
673 浏览

python - 使用 dedupe python 时资源使用率低

我需要在大型数据集中查找重复项,因此我正在测试重复数据删除python 库。

我知道它被推荐用于小型数据集,所以我认为使用一台好的机器可以提高性能。我有一台具有 56 GB RAM 的机器,我正在为具有 200000 行的数据集运行类似于“csv_example”的测试。它可以工作,但内存使用率非常低,因此处理(CPU)。

在阻塞阶段似乎花费了太长时间:

任何人都可以帮助我改善使用情况或告诉我是否有任何库/设置使程序使用更多可用资源?

0 投票
0 回答
65 浏览

python - 在数据库中构建重复数据删除结果

我正在使用 python 项目重复数据删除在我的数据中查找重复的组织名称。许多示例都侧重于如何处理数据,而不是如何实现结果。是否有任何最佳实践来获取结果、将其放入数据库并查询重复的记录分组?

到目前为止,我的想法是像这样构造两个表(使用 sqlalchemy),但我觉得它有些不对劲:

0 投票
0 回答
243 浏览

python - Python Postgresql 重复数据删除耗费大量时间。能有什么优化吗?

我正在使用 postgres 重复数据删除示例代码。对于 10,000 行,它消耗 163 秒。我发现这部分大部分时间都在消耗:

这部分是否有任何可能的优化,以便它以更少的时间复杂度产生相同的结果?该脚本是否适用于 1.5 亿条记录?

0 投票
1 回答
133 浏览

python - 增加重复数据删除库中的 max_components 变量

如何增加默认值max_components变量中的默认值?

默认max_components设置为 30000。我需要增加此限制,因为每次执行重复数据删除(使用相同的数据集)时都会得到不同的结果。

我认为我的数据中的集群总数大于 30000。