问题标签 [record-linkage]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
66 浏览

r - RecordLinkage:更改分析单位,如何将去重数据集中的所有链接匹配导出到一行新数据框中?

我正在尝试将数据集的分析单位从报告的事件更改为报告事件的个人。由于同一个人已经报告了不止一次,我使用了 R 的 RecordLinkage 包中的 compare.dedup 函数来识别匹配对——即同一个人报告的事件对。但是,我正在努力将所有对导出到一个数据集中以进行进一步分析。

这是一些虚拟数据的代码:

打印“事件”时如下所示:

我设法在一行中打印对,但我所追求的是将所有内容聚集成一行(见下文)。

我运行了以下代码来识别和提取匹配的对:

我可以在单行中获得链接对:

但是,我想要实现的是合并所有匹配项,因此我最终得到每个人一行,按报告日期。或多或少是这样的:

我想知道是否有人对如何实现这一目标提出建议?

提前致谢!

0 投票
1 回答
180 浏览

python - 当预测值是匹配的索引对时,如何实现 SVM 模型?

我正在尝试拟合一个 SVM 模型,其中我的预测真实值是匹配的多索引。问题是我不知道如何指定多索引是真实值。

我不能使用记录链接分类步骤,因为它不是很灵活。

0 投票
1 回答
596 浏览

python - 如何使用熊猫记录链接中的两列编写索引块?

我想在index两个columns比较数据库的信息相等的情况下进行配对。这可以使用index记录链接类来实现吗?

我希望该类创建包含与这些标准匹配的索引的多索引。

相反,我得到了,init () 需要 1 到 3 个位置参数,但给出了 5 个

0 投票
1 回答
65 浏览

r - 近似重复数据删除

假设我有一个这样的数据集:

示例数据

我需要检查可能的重复项。在这里,第 2 行和第 3 行是可疑的重复项。我知道字符串距离方法以及数字变量的近似匹配。但是这两种方法结合了吗?最终,我正在寻找一种可以在 R 中实现的方法。

0 投票
1 回答
378 浏览

python - 如何为 Python Dedupe 使用预先标记的训练数据

我正在使用 Python Dedupe包进行记录链接任务。这意味着将一个数据集中的公司名称与另一个数据集中匹配。

Dedupe 包允许用户标记对以训练逻辑回归模型。但是,这是一个手动过程,需要为屏幕上显示的每一对输入 y/n。

我想加载一个包含 3 列的培训文件,例如 Company 1、Company 2、Match 如果 Company 1 和 Company 2 分别相同或不同,则 Match 可以取值是或否。

我正在关注此源代码,但找不到加载文件进行培训的方法。

此外,文档显示可以更改默认分类器,但不确定如何执行此操作

谁能帮我解决这个问题

0 投票
1 回答
3824 浏览

r - r shiny - 在一个页面上显示多个数据表

我正在尝试在R shiny. 我想做的第一件事是选择两个 csv 文件显示在页面上。据此: https : //community.rstudio.com/t/creating-tables-in-r-shiny-dynamically/14586我需要dataTableOutput为. 但是,当我尝试时,该应用程序不起作用。UIrenderDataTableserver

下面的代码只允许用户加载一个 csv 文件。

用户界面

服务器

我想:

  1. 能够上传多个文件
  2. 从每个文件中选择要显示的列 ( checkboxInput?)

任何帮助将不胜感激。

0 投票
0 回答
306 浏览

elasticsearch - 寻找支持实体重复数据删除的库

我将从事一些项目来处理实体重复数据删除。可能包含重复实体的数据集(一个或多个)。在实时中,实体可以以不同的形式表示姓名、地址、国家、电子邮件、社交媒体 ID。我的目标是根据不同实体信息的不同权重确定这些可能是重复的。我正在尝试寻找一个开源的库,最好用 Java 编写。

由于我需要处理数以百万计的数据,我需要关注扩展和性能。此外,性能不应该是 n^2 的数量级。在以下发现中,一些使用 Lucene 的基于索引的搜索,一些使用数据分组。

请倒建议哪个更好?

以下是我迄今为止的发现:

杜克 (Java/Lucene)

点评:使用遗传算法,很灵活。自 2016 年以来,一直有任何更新。

YannBrrd/elasticsearch-entity-resolution(杜克的扩展)

评论:自 2017 年以来,有任何更新。另外,需要检查是否兼容最新的ES和Lucene

重复数据删除/重复数据删除 (Python)

评论:使用数据分组方法。但它是用 Python 编写的。

JedAI 工具包 (Java)

评论:使用数据分组方法。

Zentity(弹性搜索插件)

评论:这是一个很好的。需要检查是否支持去重。到目前为止,在文档中,它谈到了实体身份解析。

Python 记录链接工具包文档

评论:它是在 Python 中的。

bakdata/重复数据删除 (Java)

评论:没有关于如何使用的明确文档

我想知道其他人是否还有其他人。也请说说上面的优缺点。

0 投票
1 回答
149 浏览

r - 在概率链接 R 之后去重

我刚刚对两个数据集执行了概率链接。称为“数据”的输出数据集包含两个原始数据集 ID_A 和另一个 ID_B 的标识号,以及关联分数“match_score”。

ID_A 和 ID_B 有多种组合。我只想选择要配对的顶部链接,然后将它们从选择过程中删除以进行进一步的链接。理想的输出是...

ID_A:由于 ID_B (762),126 不匹配,另一个 ID_A (127) 的 match_score 更高。

ID_B:799 不匹配,因为 ID_A(125) 与 (787) 的 match_score 更大

任何帮助将不胜感激!

我有解决 SAS 问题的方法,但是我很难转换为 R。

0 投票
1 回答
181 浏览

python - 比较recordlinkage中每个记录对的记录时,什么是“对”?

我有一组房地产广告数据。有几行是关于相同的房地产,所以它充满了不完全相同的重复。它看起来像这样:

我想在数据集中查找属于具有记录链接的同一实体的记录。所以我阅读了文档并模仿了相同的内容:

2164 2340366

每个记录对都是候选匹配,为了将候选记录对分类为匹配和不匹配,我想比较两个记录共有的所有属性的记录。recordlinkage 模块有一个名为 Compare 的类。该类用于比较记录。以下代码显示了我如何比较属性:

compare_cl = 记录链接。比较()

但是它给了我回报:

而且我在文档中找不到什么对...

0 投票
0 回答
258 浏览

python - 如何在 Python Dedupe 库中实现自定义比较器?

我正在使用迄今为止很棒的Dedupe 库来帮助链接来自多个提供商的记录。我比较的字段之一是电话号码字段。我想使用谷歌的电话号码库来规范这些电话号码。另一个不错的功能是能够比较数字并返回从 0(根本不匹配)到 4(每个组件完全匹配)的匹配类型。

所以这似乎很适合Dedupe 的自定义变量。但是我对自定义比较器实现应该是什么样子有点困惑。文档中的示例只是匹配/不匹配的简单 0 对 1。

我基本上想确保,在幕后,我的自定义比较器将向 Dedupe 指示 4 表示电话号码非常接近,0 表示它们相距非常远。

那会奏效吗?还是我必须以其他方式退货?例如,我必须用 0 表示完全匹配吗?