问题标签 [python-dedupe]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python 记录链接、模糊匹配和去重
我有 3 个包含 7 列的客户数据集。
顾客姓名
地址
电话
店名
移动的
经度
纬度
每个数据集有 13000-18000 条记录。我试图模糊匹配它们之间的重复数据删除。我的数据集列在此匹配中的权重不同。我怎么能处理????你知道我的案例的好图书馆吗?
python-dedupe - AttributeError:“NoneType”对象没有属性“learn_predicates”
我有关于在 table 中找到双打的信息learning
,其中entity_id
双打相同。我想通过示例来教授 Dedupe,但会出错。我究竟做错了什么?
错误:
python - 记录链接上的重复数据删除溢出错误
我想使用 Dedupe 库进行记录链接。我从 Github 上的 Dedupe 示例中编写了这段代码。但是当我运行我的代码时,我得到了这个错误:
溢出错误:Python int 太大而无法转换为 C ssize_t ##
这是因为我的数据非常大。我怎么不能过滤我的 data_d 列?它应该有帮助。我搜索了所有 stackoverflow 问题,但找不到正确答案。
python - “错误:命令 'cl.exe' 失败:没有这样的文件或目录” - Python Dedupe 安装
我正在尝试安装dedupe
模块,但出现以下错误,
错误:命令“cl.exe”失败:没有这样的文件或目录
dedupe
构建轮失败 dedupe-hcluster
构建轮失败 affinegap
构建轮失败 pylbfgs 构建轮
失败 pyhacrf-datamade 构建轮失败
我找到了这个链接,这并没有帮助我解决。
我正在使用 Windows 10 64 位 Python 3.5.4 :: Anaconda 自定义(64 位)。
我在这里.whl
找到了文件,(dedupe-1.9.2-cp35-cp35m-manylinux1_x86_64.whl)下载它并尝试使用,但出现错误,pip install <>.whl
dedupe-1.9.2-cp35-cp35m-manylinux1_x86_64.whl 在此平台上不支持。
关于如何解决这个问题的任何想法?
elasticsearch - Apache Nifi - 联合搜索
我的团队陷入了困境,并被要求在各种大型数据集上建立客户的联合搜索,这些数据集包含关于每个人的不同程度的不同数据(并且没有匹配的标识符),我想知道如何着手实施它。
我认为 Apache Nifi 非常适合查询我们的各种数据库、合并结果、通过外部工具对条目进行重复数据删除,然后将此结果推送到数据库中,然后查询该数据库以在 Elasticsearch 实例中供应用程序使用。
所以粗略地说是这样的: -
例如,以下数据存在于第一个流程的结果数据库中:-
<a href="https://i.stack.imgur.com/gTPx7.png" rel="nofollow noreferrer">
然后在这个数据库表上运行https://github.com/dedupeio/dedupe,它将添加集群 ID 以帮助记录链接,例如:-
<a href="https://i.stack.imgur.com/6EukP.png" rel="nofollow noreferrer">
然后,第二个流程将查询结果数据库并将此结果提供给 Elasticsearch 实例,以供应用程序 API 用于查询,该查询将使用集群 ID 链接重复项。
几个问题:-
我将如何触发重复数据删除以在合并的内容上运行被推送到数据库?</p>
必然的问题 - 第二个流程如何知道何时获取结果以推送到 Elasticsearch?定期轮询?</p>
我在这里也没有考虑任何 CDC 流程,因为数据库将不断更新,我需要处理,所以如果有人解决了类似的问题或使用了不同的方法(也很高兴考虑其他技术),我真的很感兴趣。
谢谢!
python - 没有名为 zope.index 的模块
尝试导入依赖于 zope 的库时出现以下错误
没有名为 zope.index 的模块
我的 python 路径是正确的(我可以导入其他库) 我已经在 zope 文件夹中创建了一个init .py 文件,但它仍然无法正常工作,所以我不确定我可能会丢失什么
目前使用python 3.7
*编辑错误:
文件“C:\Users\vitor.valentim\AppData\Local\Programs\Python\Python37\Lib\dedupe\tfidf.py”,第 5 行,从 .canopy_index 导入 CanopyIndex
文件“C:\Users\vitor.valentim\AppData\Local\Programs\Python\Python37\Lib\dedupe\canopy_index.py”,第 3 行,从 zope.index.text.lexicon 导入 Lexicon
ModuleNotFoundError:没有名为“zope.index”的模块
python - Dedupe Python - “记录不符合数据模型”
我坚持从 dedupe.io 设置 python 和库 dedupe 以对 postgres 数据库中的一组条目进行重复数据删除。错误是 - “记录不符合数据模型”这应该很容易解决,但我只是不明白为什么会收到此消息。
我现在拥有的(重点代码并删除了其他功能)
错误消息是“记录不符合数据模型。字段 'id' 在 data_model 但不在记录中”。如您所见,我正在定义要“学习”的 5 个字段。我正在使用的查询准确地返回了这 5 列以及其中的数据。的输出
是
在我看来,这就像重复数据删除库的有效输入。
我试过的
- 我检查了他是否已经编写了一个文件作为训练集,该文件会以某种方式被读取和使用,事实并非如此(代码甚至会这样说)
- 我尝试调试字段定义等进入的“deduper”对象,我可以看到字段定义
- 查看其他示例,例如 csv 或 mysql,它们的功能与我几乎相同。
请指出我错的方向。
python - 在 Windows 上安装 dedupe conda 包时出错
请帮我解决这个错误:
发布后conda install -c derickl dedupe
,我PackagesNotFoundError
在 Windows 10 上收到了一个。
python - 针对现有数据集删除一个新行
我正在使用重复数据删除 python 库。
任何代码示例都可以,例如 this。
假设我有一个训练有素deduper
并使用它成功地对数据集进行重复数据删除。
现在我向数据集添加一个新行。
我想检查这个新行是否重复。
有没有办法在重复数据删除中做到这一点(无需重新分类整个数据集)?
更新:我已经尝试过@libreneitor 的建议,但我只是得到No records have been blocked together. Is the data you are trying to match like the data you trained on?
这是我的代码(csv 文件):