问题标签 [record-linkage]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - RecordLinkage:更改分析单位,如何将去重数据集中的所有链接匹配导出到一行新数据框中?
我正在尝试将数据集的分析单位从报告的事件更改为报告事件的个人。由于同一个人已经报告了不止一次,我使用了 R 的 RecordLinkage 包中的 compare.dedup 函数来识别匹配对——即同一个人报告的事件对。但是,我正在努力将所有对导出到一个数据集中以进行进一步分析。
这是一些虚拟数据的代码:
打印“事件”时如下所示:
我设法在一行中打印对,但我所追求的是将所有内容聚集成一行(见下文)。
我运行了以下代码来识别和提取匹配的对:
我可以在单行中获得链接对:
但是,我想要实现的是合并所有匹配项,因此我最终得到每个人一行,按报告日期。或多或少是这样的:
我想知道是否有人对如何实现这一目标提出建议?
提前致谢!
python - 当预测值是匹配的索引对时,如何实现 SVM 模型?
我正在尝试拟合一个 SVM 模型,其中我的预测真实值是匹配的多索引。问题是我不知道如何指定多索引是真实值。
我不能使用记录链接分类步骤,因为它不是很灵活。
python - 如何使用熊猫记录链接中的两列编写索引块?
我想在index
两个columns
比较数据库的信息相等的情况下进行配对。这可以使用index
记录链接类来实现吗?
我希望该类创建包含与这些标准匹配的索引的多索引。
相反,我得到了,init () 需要 1 到 3 个位置参数,但给出了 5 个
r - r shiny - 在一个页面上显示多个数据表
我正在尝试在R
shiny
. 我想做的第一件事是选择两个 csv 文件显示在页面上。据此: https : //community.rstudio.com/t/creating-tables-in-r-shiny-dynamically/14586我需要dataTableOutput
为. 但是,当我尝试时,该应用程序不起作用。UI
renderDataTable
server
下面的代码只允许用户加载一个 csv 文件。
用户界面
服务器
我想:
- 能够上传多个文件
- 从每个文件中选择要显示的列 (
checkboxInput
?)
任何帮助将不胜感激。
elasticsearch - 寻找支持实体重复数据删除的库
我将从事一些项目来处理实体重复数据删除。可能包含重复实体的数据集(一个或多个)。在实时中,实体可以以不同的形式表示姓名、地址、国家、电子邮件、社交媒体 ID。我的目标是根据不同实体信息的不同权重确定这些可能是重复的。我正在尝试寻找一个开源的库,最好用 Java 编写。
由于我需要处理数以百万计的数据,我需要关注扩展和性能。此外,性能不应该是 n^2 的数量级。在以下发现中,一些使用 Lucene 的基于索引的搜索,一些使用数据分组。
请倒建议哪个更好?
以下是我迄今为止的发现:
杜克 (Java/Lucene)
点评:使用遗传算法,很灵活。自 2016 年以来,一直有任何更新。
YannBrrd/elasticsearch-entity-resolution(杜克的扩展)
评论:自 2017 年以来,有任何更新。另外,需要检查是否兼容最新的ES和Lucene
重复数据删除/重复数据删除 (Python)
评论:使用数据分组方法。但它是用 Python 编写的。
JedAI 工具包 (Java)
评论:使用数据分组方法。
Zentity(弹性搜索插件)
评论:这是一个很好的。需要检查是否支持去重。到目前为止,在文档中,它谈到了实体身份解析。
Python 记录链接工具包文档
评论:它是在 Python 中的。
bakdata/重复数据删除 (Java)
评论:没有关于如何使用的明确文档
我想知道其他人是否还有其他人。也请说说上面的优缺点。
r - 在概率链接 R 之后去重
我刚刚对两个数据集执行了概率链接。称为“数据”的输出数据集包含两个原始数据集 ID_A 和另一个 ID_B 的标识号,以及关联分数“match_score”。
ID_A 和 ID_B 有多种组合。我只想选择要配对的顶部链接,然后将它们从选择过程中删除以进行进一步的链接。理想的输出是...
ID_A:由于 ID_B (762),126 不匹配,另一个 ID_A (127) 的 match_score 更高。
ID_B:799 不匹配,因为 ID_A(125) 与 (787) 的 match_score 更大
任何帮助将不胜感激!
我有解决 SAS 问题的方法,但是我很难转换为 R。
python - 如何在 Python Dedupe 库中实现自定义比较器?
我正在使用迄今为止很棒的Dedupe 库来帮助链接来自多个提供商的记录。我比较的字段之一是电话号码字段。我想使用谷歌的电话号码库来规范这些电话号码。另一个不错的功能是能够比较数字并返回从 0(根本不匹配)到 4(每个组件完全匹配)的匹配类型。
所以这似乎很适合Dedupe 的自定义变量。但是我对自定义比较器实现应该是什么样子有点困惑。文档中的示例只是匹配/不匹配的简单 0 对 1。
我基本上想确保,在幕后,我的自定义比较器将向 Dedupe 指示 4 表示电话号码非常接近,0 表示它们相距非常远。
那会奏效吗?还是我必须以其他方式退货?例如,我必须用 0 表示完全匹配吗?