“python-dedupe”的相关标签问题

0 投票

1 回答

1211 浏览

python - Python 记录链接、模糊匹配和去重

我有 3 个包含 7 列的客户数据集。

顾客姓名

地址

电话

店名

移动的

经度

纬度

每个数据集有 13000-18000 条记录。我试图模糊匹配它们之间的重复数据删除。我的数据集列在此匹配中的权重不同。我怎么能处理？？？？你知道我的案例的好图书馆吗？

2018-05-09T08:17:38.653

0 投票

1 回答

716 浏览

python-dedupe - AttributeError：“NoneType”对象没有属性“learn_predicates”

我有关于在 table 中找到双打的信息learning，其中entity_id双打相同。我想通过示例来教授 Dedupe，但会出错。我究竟做错了什么？

错误：

python-dedupe

2018-05-10T05:32:01.273

0 投票

0 回答

164 浏览

python - 记录链接上的重复数据删除溢出错误

我想使用 Dedupe 库进行记录链接。我从 Github 上的 Dedupe 示例中编写了这段代码。但是当我运行我的代码时，我得到了这个错误：

溢出错误：Python int 太大而无法转换为 C ssize_t ##

这是因为我的数据非常大。我怎么不能过滤我的 data_d 列？它应该有帮助。我搜索了所有 stackoverflow 问题，但找不到正确答案。

python python-3.x duplicates record-linkage python-dedupe

2018-05-15T12:47:29.007

0 投票

2 回答

1661 浏览

python - “错误：命令 'cl.exe' 失败：没有这样的文件或目录” - Python Dedupe 安装

我正在尝试安装dedupe 模块，但出现以下错误，

错误：命令“cl.exe”失败：没有这样的文件或目录

dedupe
构建轮失败 dedupe-hcluster
构建轮失败 affinegap
构建轮失败 pylbfgs 构建轮
失败 pyhacrf-datamade 构建轮失败

我找到了这个链接，这并没有帮助我解决。

我正在使用 Windows 10 64 位 Python 3.5.4 :: Anaconda 自定义（64 位）。

我在这里.whl找到了文件，（dedupe-1.9.2-cp35-cp35m-manylinux1_x86_64.whl）下载它并尝试使用，但出现错误，pip install <>.whl

dedupe-1.9.2-cp35-cp35m-manylinux1_x86_64.whl 在此平台上不支持。

关于如何解决这个问题的任何想法？

python python-3.x python-dedupe

2018-07-08T16:12:19.783

0 投票

0 回答

630 浏览

python-dedupe - 为重复数据删除错误安装特定版本的 Numpy

我是 python 新手，已经遇到了一些问题：

为了清理一些数据，我想尝试dedupe / csvdedupe

它需要 numpy 才能运行，所以我安装了它（没有问题）

但是当我想安装它时

所以我卸载了numpy并安装了特定版本

然后我得到了这个错误结果：

python-dedupe

2018-07-13T08:52:30.807

0 投票

1 回答

222 浏览

elasticsearch - Apache Nifi - 联合搜索

我的团队陷入了困境，并被要求在各种大型数据集上建立客户的联合搜索，这些数据集包含关于每个人的不同程度的不同数据（并且没有匹配的标识符），我想知道如何着手实施它。

我认为 Apache Nifi 非常适合查询我们的各种数据库、合并结果、通过外部工具对条目进行重复数据删除，然后将此结果推送到数据库中，然后查询该数据库以在 Elasticsearch 实例中供应用程序使用。

所以粗略地说是这样的： -

例如，以下数据存在于第一个流程的结果数据库中：-

<a href="https://i.stack.imgur.com/gTPx7.png" rel="nofollow noreferrer"> 在此处输入图像描述

然后在这个数据库表上运行https://github.com/dedupeio/dedupe，它将添加集群 ID 以帮助记录链接，例如：-

<a href="https://i.stack.imgur.com/6EukP.png" rel="nofollow noreferrer"> 在此处输入图像描述

然后，第二个流程将查询结果数据库并将此结果提供给 Elasticsearch 实例，以供应用程序 API 用于查询，该查询将使用集群 ID 链接重复项。

几个问题：-

我将如何触发重复数据删除以在合并的内容上运行被推送到数据库？</p>
必然的问题 - 第二个流程如何知道何时获取结果以推送到 Elasticsearch？定期轮询？</p>

我在这里也没有考虑任何 CDC 流程，因为数据库将不断更新，我需要处理，所以如果有人解决了类似的问题或使用了不同的方法（也很高兴考虑其他技术），我真的很感兴趣。

谢谢！

elasticsearch duplicates apache-nifi record-linkage python-dedupe

2018-08-17T07:45:39.623

0 投票

1 回答

148 浏览

python - 没有名为 zope.index 的模块

尝试导入依赖于 zope 的库时出现以下错误

没有名为 zope.index 的模块

我的 python 路径是正确的（我可以导入其他库）我已经在 zope 文件夹中创建了一个init .py 文件，但它仍然无法正常工作，所以我不确定我可能会丢失什么

目前使用python 3.7

*编辑错误：

文件“C:\Users\vitor.valentim\AppData\Local\Programs\Python\Python37\Lib\dedupe\tfidf.py”，第 5 行，从 .canopy_index 导入 CanopyIndex

文件“C:\Users\vitor.valentim\AppData\Local\Programs\Python\Python37\Lib\dedupe\canopy_index.py”，第 3 行，从 zope.index.text.lexicon 导入 Lexicon

ModuleNotFoundError：没有名为“zope.index”的模块

佐佩路径

zope.index 路径

python python-3.x python-import zope python-dedupe

2018-11-15T19:49:50.300

0 投票

1 回答

927 浏览

python - Dedupe Python - “记录不符合数据模型”

我坚持从 dedupe.io 设置 python 和库 dedupe 以对 postgres 数据库中的一组条目进行重复数据删除。错误是 - “记录不符合数据模型”这应该很容易解决，但我只是不明白为什么会收到此消息。

我现在拥有的（重点代码并删除了其他功能）

错误消息是“记录不符合数据模型。字段 'id' 在 data_model 但不在记录中”。如您所见，我正在定义要“学习”的 5 个字段。我正在使用的查询准确地返回了这 5 列以及其中的数据。的输出

是

在我看来，这就像重复数据删除库的有效输入。

我试过的

我检查了他是否已经编写了一个文件作为训练集，该文件会以某种方式被读取和使用，事实并非如此（代码甚至会这样说）
我尝试调试字段定义等进入的“deduper”对象，我可以看到字段定义
查看其他示例，例如 csv 或 mysql，它们的功能与我几乎相同。

请指出我错的方向。

python duplicates python-dedupe

2019-01-22T18:56:14.350

0 投票

1 回答

432 浏览

python - 在 Windows 上安装 dedupe conda 包时出错

安装重复数据包时出错：

请帮我解决这个错误：

发布后conda install -c derickl dedupe，我PackagesNotFoundError在 Windows 10 上收到了一个。

python package python-dedupe

2019-04-30T15:12:42.057

0 投票

1 回答

822 浏览

python - 针对现有数据集删除一个新行

我正在使用重复数据删除 python 库。

任何代码示例都可以，例如 this。

假设我有一个训练有素deduper并使用它成功地对数据集进行重复数据删除。

现在我向数据集添加一个新行。

我想检查这个新行是否重复。

有没有办法在重复数据删除中做到这一点（无需重新分类整个数据集）？

更新：我已经尝试过@libreneitor 的建议，但我只是得到No records have been blocked together. Is the data you are trying to match like the data you trained on?这是我的代码（csv 文件）：

python python-dedupe dedupeplugin

2019-06-17T19:51:18.810

问题标签 [python-dedupe]

Reference