问题标签 [python-dedupe]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何在 Windows 机器上引发 Pandas 中的索引错误?
我正在使用 pandas_dedupe 库。当我尝试在 Windows 机器上运行时出现此错误,但相同的代码在 Mac 上运行良好。
以下是日志以供您查看:
python - python重复数据删除库中有任何类型可以跨电话匹配
我正在使用 Dedupe 库将人员记录相互匹配。我的数据包括名字、姓氏、电子邮件、电话 1、电话 2、电话 3 和地址信息。
这是我的问题:如果两个记录的名字、姓氏与(电话1、电话2、电话3、电子邮件和地址)匹配,我总是希望以80%到99%的置信度匹配两条记录,我也想匹配像电话1=这样的交叉电话号码电话 2,电话 1=电话 3,电话 2=电话 3。
这是我的一些代码的示例:
在 Dedupe 库中,我有什么方法可以将交叉电话号码与 first_name 和 last_name 匹配?
python - Python Dedupe 库比较属性列表
我试图在没有通用键的数据集之间链接记录来识别匹配。对于这两个数据集,每条记录我可能没有、一个或多个地址。
如何最好地设置 Python 重复数据删除库来处理列表?我翻遍了谷歌和文档,但没有找到任何具体的东西。
谢谢!
mysql - 在以下情况下, < 比较与 != 有何不同?
我试图在https://dedupeio.github.io/dedupe-examples/docs/mysql_example.html上理解这个例子。在以下情况下, < 比较与 != 有何不同?
VS
python - 使用 python Dedupe 包检查单个记录
我正在使用 Dedupe python 包检查传入记录的重复项。我已经训练了大约。来自 CSV 文件的 500000 条记录。使用 Dedupe 包,我将 500000 条记录聚集到不同的集群中。我试图使用settings_file
训练结束对新记录进行重复数据删除(data
在代码中)。我在下面分享了一个代码片段。
数据,这是一条新记录,我必须检查它是否有重复。data
好像
这会引发错误。
没有记录被一起阻止。您尝试匹配的数据是否像您训练的数据一样?
如何使用此集群数据检查新记录是否重复?是否可以像我们对任何 ML 模型所做的那样?我查看了多个来源,但没有找到解决此问题的方法。
大多数消息来源都在谈论培训,而不是关于我如何使用集群数据来检查单个记录。
有没有别的出路。
任何帮助表示赞赏。
pandas - 如何将 Pandas GroupBy 的发现应用于源数据
我正在使用 pandas de_dupe 进行名称重复数据删除,并且有多个步骤。
首先,我对源数据进行训练和重复数据删除。
接下来我丢弃集群只有 1 个参与者的数据集
接下来,我需要检查每组匹配项(按“cluster id”分组)并确认每组中至少前 3 个字符是相同的。我通过遍历 dedupedComplexSets 中的每个组并通过每个Surname的前三个字符进一步对每个组的内容进行分组来做到这一点。
最后,我想标记属于重复数据删除集群的每一行,其中姓氏“开头”的数量> 1
但是,由于“可变哈希”错误或其他错误,我无法写回原始数据帧。
像这样的问题是如何解决的?以及如何在 Grouped Set 数据框之外传达组检查的输出?一定有正确的方法……?
(其中 RowClusterHasLeadingCharacterMismatch 是脚本列)中的示例数据:
行 ID|名字|姓氏
输出示例数据:RowID|FirstName|Surname|cluster id|confidence|RowClusterHasLeadingCharacterMismatch
请注意,我使用 RowClusterHasLeadingCharacterMismatch 作为记录不匹配的一种方式。也许有更有效的方法来做到这一点?
python - 重复数据删除库、阻塞问题、缺少匹配项
我有一个包含3M行和两列的 CSV 文件,它只是阿拉伯语 Student_name 和 Id,
我想将指代同一个学生的相似名字聚集在一起,例如,这些名字可能有拼写错误或多余的空格。
在集群输出中,有很多错过的匹配,例如,两个名称相同,其中一个有一个额外的空间,在结果文件中,它有时将它们聚类在一个聚类中,有时将它们聚类在不同的聚类中。
假设有五(5)个相似的名称,但拼写差异很小,在输出文件中,它在一个集群中给了我三(3)个,而其余的在不同的集群中,尽管它们有相似的差异。即使我按字母顺序对名称进行排序,也会发生这种情况。
我猜是阻塞功能的问题。
那正确吗?你能指导我修复它吗?如何增加块大小。
我试图在Cluster函数中增加max_components变量,但最终出现内存错误。
提前致谢。
python - python中的重复数据删除库-日志文件问题
我在使用重复数据删除创建日志文件时遇到了一些问题:这是我用来创建日志文件的语法:
当我开始集群过程时:
它会随机创建一个新的日志文件。例如:我启动代码并在集群时创建 logfile1 它创建 logfile2 logfile3 logfile4 logfile5 和 logfile6 但它们不是原始日志文件的副本,它们仅包含实际文件导入之前的日志(因此它们不包括第一次检查和集群之间的代码块)当集群结束时,继续更新的文件是 logfile1,而不是 logfile6,它是最后一个创建的文件。所以以某种方式打开和关闭了这些文件(我在代码的最后一行关闭了日志文件,所以奇怪的是新创建的文件跳过了一大块代码)我认为也许集群使用了代码并再次执行它但是不是主要的,所以它跳过了所有
代码。我在 deduper.clustering 下查找代码,但是当我使用 print(dedupe.file )时,dedupe 目录不包含 deduper 或分区。所以它可能会想起另一个我不知道如何命名的文件模块我该如何避免这种情况?多谢
duplicates - 为什么 Dedupe.io 中的记录链接为匹配的记录提供不同的集群 ID?
嗨,我有以下两个文件,我想在这两个文件之间找到匹配项。Test1.csv 中的每条记录最多可以匹配 Test2.csv 中的一条记录,但 Test1.csv 中的多条记录可以匹配 Test2.csv 中的同一条记录。我匹配名称和 domainWithExtension 列。
这是代码:
这有效并给出以下结果:
“Boxaround”的记录在 Test1.csv 中出现两次。因此,我希望这两个记录都与 Test2.csv 中的“Boxaround”记录匹配,并且输出中应该具有相同的集群 ID,但是输出中的集群 ID 4 有两条记录,另一条的集群 ID 为 0,用于“环绕”。我希望所有三个“Boxaround”记录都具有相同的集群 ID 4。我怎样才能做到这一点?请帮忙。