问题标签 [python-dedupe]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1211 浏览

python - Python 记录链接、模糊匹配和去重

我有 3 个包含 7 列的客户数据集。

顾客姓名

地址

电话

店名

移动的

经度

纬度

每个数据集有 13000-18000 条记录。我试图模糊匹配它们之间的重复数据删除。我的数据集列在此匹配中的权重不同。我怎么能处理????你知道我的案例的好图书馆吗?

0 投票
1 回答
716 浏览

python-dedupe - AttributeError:“NoneType”对象没有属性“learn_predicates”

我有关于在 table 中找到双打的信息learning,其中entity_id双打相同。我想通过示例来教授 Dedupe,但会出错。我究竟做错了什么?

错误:

0 投票
0 回答
164 浏览

python - 记录链接上的重复数据删除溢出错误

我想使用 Dedupe 库进行记录链接。我从 Github 上的 Dedupe 示例中编写了这段代码。但是当我运行我的代码时,我得到了这个错误:

溢出错误:Python int 太大而无法转换为 C ssize_t ##

这是因为我的数据非常大。我怎么不能过滤我的 data_d 列?它应该有帮助。我搜索了所有 stackoverflow 问题,但找不到正确答案。

0 投票
2 回答
1661 浏览

python - “错误:命令 'cl.exe' 失败:没有这样的文件或目录” - Python Dedupe 安装

我正在尝试安装dedupe 模块,但出现以下错误,

错误:命令“cl.exe”失败:没有这样的文件或目录


dedupe
构建轮失败 dedupe-hcluster
构建轮失败 affinegap
构建轮失败 pylbfgs 构建轮
失败 pyhacrf-datamade 构建轮失败

我找到了这个链接,这并没有帮助我解决。

我正在使用 Windows 10 64 位 Python 3.5.4 :: Anaconda 自定义(64 位)。

我在这里.whl找到了文件,(dedupe-1.9.2-cp35-cp35m-manylinux1_x86_64.whl)下载它并尝试使用,但出现错误,pip install <>.whl

dedupe-1.9.2-cp35-cp35m-manylinux1_x86_64.whl 在此平台上不支持。

关于如何解决这个问题的任何想法?

0 投票
0 回答
630 浏览

python-dedupe - 为重复数据删除错误安装特定版本的 Numpy

我是 python 新手,已经遇到了一些问题:

为了清理一些数据,我想尝试dedupe / csvdedupe

它需要 numpy 才能运行,所以我安装了它(没有问题)

但是当我想安装它时

所以我卸载了numpy并安装了特定版本

然后我得到了这个错误结果:

0 投票
1 回答
222 浏览

elasticsearch - Apache Nifi - 联合搜索

我的团队陷入了困境,并被要求在各种大型数据集上建立客户的联合搜索,这些数据集包含关于每个人的不同程度的不同数据(并且没有匹配的标识符),我想知道如何着手实施它。

我认为 Apache Nifi 非常适合查询我们的各种数据库、合并结果、通过外部工具对条目进行重复数据删除,然后将此结果推送到数据库中,然后查询该数据库以在 Elasticsearch 实例中供应用程序使用。

所以粗略地说是这样的: -

在此处输入图像描述

例如,以下数据存在于第一个流程的结果数据库中:-

<a href="https://i.stack.imgur.com/gTPx7.png" rel="nofollow noreferrer">在此处输入图像描述

然后在这个数据库表上运行https://github.com/dedupeio/dedupe,它将添加集群 ID 以帮助记录链接,例如:-

<a href="https://i.stack.imgur.com/6EukP.png" rel="nofollow noreferrer">在此处输入图像描述

然后,第二个流程将查询结果数据库并将此结果提供给 Elasticsearch 实例,以供应用程序 API 用于查询,该查询将使用集群 ID 链接重复项。

几个问题:-

  • 我将如何触发重复数据删除以在合并的内容上运行被推送到数据库?</p>

  • 必然的问题 - 第二个流程如何知道何时获取结果以推送到 Elasticsearch?定期轮询?</p>

我在这里也没有考虑任何 CDC 流程,因为数据库将不断更新,我需要处理,所以如果有人解决了类似的问题或使用了不同的方法(也很高兴考虑其他技术),我真的很感兴趣。

谢谢!

0 投票
1 回答
148 浏览

python - 没有名为 zope.index 的模块

尝试导入依赖于 zope 的库时出现以下错误

没有名为 zope.index 的模块

我的 python 路径是正确的(我可以导入其他库) 我已经在 zope 文件夹中创建了一个init .py 文件,但它仍然无法正常工作,所以我不确定我可能会丢失什么

目前使用python 3.7

*编辑错误:

文件“C:\Users\vitor.valentim\AppData\Local\Programs\Python\Python37\Lib\dedupe\tfidf.py”,第 5 行,从 .canopy_index 导入 CanopyIndex

文件“C:\Users\vitor.valentim\AppData\Local\Programs\Python\Python37\Lib\dedupe\canopy_index.py”,第 3 行,从 zope.index.text.lexicon 导入 Lexicon

ModuleNotFoundError:没有名为“zope.index”的模块

佐佩路径

zope.index 路径

0 投票
1 回答
927 浏览

python - Dedupe Python - “记录不符合数据模型”

我坚持从 dedupe.io 设置 python 和库 dedupe 以对 postgres 数据库中的一组条目进行重复数据删除。错误是 - “记录不符合数据模型”这应该很容易解决,但我只是不明白为什么会收到此消息。

我现在拥有的(重点代码并删除了其他功能)

错误消息是“记录不符合数据模型。字段 'id' 在 data_model 但不在记录中”。如您所见,我正在定义要“学习”的 5 个字段。我正在使用的查询准确地返回了这 5 列以及其中的数据。的输出

在我看来,这就像重复数据删除库的有效输入。

我试过的

  • 我检查了他是否已经编写了一个文件作为训练集,该文件会以某种方式被读取和使用,事实并非如此(代码甚至会这样说)
  • 我尝试调试字段定义等进入的“deduper”对象,我可以看到字段定义
  • 查看其他示例,例如 csv 或 mysql,它们的功能与我几乎相同。

请指出我错的方向。

0 投票
1 回答
432 浏览

python - 在 Windows 上安装 dedupe conda 包时出错

安装重复数据包时出错:

请帮我解决这个错误:

发布后conda install -c derickl dedupe,我PackagesNotFoundError在 Windows 10 上收到了一个。

0 投票
1 回答
822 浏览

python - 针对现有数据集删除一个新行

我正在使用重复数据删除 python 库

任何代码示例都可以,例如 this

假设我有一个训练有素deduper并使用它成功地对数据集进行重复数据删除。

现在我向数据集添加一个新行。

我想检查这个新行是否重复。

有没有办法在重复数据删除中做到这一点(无需重新分类整个数据集)?

更新:我已经尝试过@libreneitor 的建议,但我只是得到No records have been blocked together. Is the data you are trying to match like the data you trained on?这是我的代码(csv 文件):