问题标签 [record-linkage]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
245 浏览

r - 在R中的数据框中显示相应的值

请检查下面的代码,我使用下面的三个变量创建了一个数据框,变量“y123”计算列 a2 与 a1 之间的相似性。变量“y123”给了我总共 16 个值,其中每个 a1 值都与 a2 进行比较。我的需要是,当将特定的“a1”值与特定的“a2”值进行比较时,我希望在“a2”旁边显示相应的“a3”值。所以结果应该是一个数据框,其中列 y123 和第二列,对应的“a3”列出现四次,即 16 个值。谢谢,请帮忙。

我需要一些东西列出这个:

0 投票
1 回答
417 浏览

r - 通过排除 R 中的相同条目来计算文本字符串中的相似性百分比

给定的 R 脚本计算两个名称之间的相似度百分比,如图所示。这里我们有两列“names1”和“names2”,它们各自的 id 在 id1 和 id2 中。我的要求是,当我们执行脚本时,“names1”中的每个名称都与“names2”列中的每个名称进行比较,我不希望将相同的条目,即 (id1,names1) 列与 ( id2,names2) 列。对于插图,第一个 (id1,names1) 条目 (1,Prabhudev Ramanujam) 应该与所有 (id2,names2) 进行比较,而不是与第一个 (id2,names2) 条目进行比较。同样适用于所有对。另外,如果公式

可以调整以在此处产生类似且更快的结果,因为它会减慢大数据的速度,请附加快照,请帮助。

快照视觉

0 投票
1 回答
227 浏览

r - R中文本挖掘在大型数据集上的应用

下面的 R 脚本计算列“names1”和“names2”中两个文本字符串之间的百分比相似度。但是,我的要求是对 6k-10K+ 列项执行相同的操作。当下面的公式应用于如此大的列时,由于行项目数以百万计,因此该解决方案被折腾,并且对于企业交付而言并不重要。除了“百分比”列之外,我还需要添加 6-7 个其他列,这将使解决方案大小超过 1 GB。请帮助我更新脚本,否则可能的解决方案可以实现相同的目标。非常感谢。

0 投票
0 回答
123 浏览

python - 用于匹配用户记录属性的模糊逻辑

我正在尝试提出一种算法来匹配一组用户属性,基于权重年龄(与其他属性相比,很少有属性具有更高的优先级),以便拥有一个基于模糊逻辑中最匹配的便捷推荐引擎. 我发现具有挑战性的是属性是数字和文字的混合,而且在考虑作为任何字符串匹配的输入之前,需要对 IMO 进行处理的一堆枚举(A1、C2 等)。

任何指向现有 Python 库或类似算法的指针都会对我有所帮助。

0 投票
0 回答
56 浏览

hash - 记录链接上下文中的文本匿名化

我有两个数据集需要链接在一起,因为我必须在一定的误差范围内找到出现在两个数据集中的记录(例如,一个人的名字在其中一个集中拼写错误,一个人搬家、结婚并因此获得了不同的姓氏等)

由于数据是敏感的,因此应该匿名。但是,我不能使用标准的匿名化技术(例如散列),因为这不会保留一些对链接记录至关重要的属性。

因此,我正在寻找一种方法来匿名化我的文本数据,以保留例如 Levenshtein 距离。这种技术存在吗?

0 投票
1 回答
338 浏览

python - Python RecordLinkage - 监督机器学习错误

我正在使用 python Recordlinkage 库构建一个机器学习模型,其中模型将使用预先匹配的数据进行训练。

下面是代码片段:

我收到错误消息:

KeyError:“['TrueMatchID'] 不在索引中”

样本数据:

代码中似乎有什么问题?我对 Python 比较陌生,所以不确定我是否传递了一些错误的论点。

0 投票
1 回答
424 浏览

r - 将两个数据集与 R 中的记录链接匹配

我正在尝试匹配 R 中的两个数据集:datasetA 和 datasetB。这些数据集包含以下列。

数据集A

  • 编号:15
  • 姓名:彼得·桑德斯
  • 名字:彼得
  • 姓氏:桑德斯
  • ORG_NAME:咖啡和蛋糕
  • 城市:纽约
  • 金额(美元):10369
  • 类别:食品和饮料
  • 日期:2014 年 12 月 1 日

datasetB 有类似的列:

  • ORG_ID:5241
  • 姓名:彼得·桑德
  • 名字:彼得
  • 姓名:桑德
  • company_name: 咖啡和蛋糕
  • 地点:纽约
  • 资助:10000
  • sub_cat:餐厅
  • 开始日期:2013-01-09 16:42:56
  • 结束日期:2015-01-04 11:43:39

唯一完全匹配的是名字“peter”。但是我的数据集包含许多公司,所以我的数据集中会有很多不是同一个人的“彼得”。因此,我想匹配多列中的相似性。

我想根据所有列中的信息匹配这两个数据集。我想我需要 Levenshtein Similarity 和 compare.linkage ,但是我没有成功。

有谁知道我怎么能匹配这个?任何帮助将不胜感激。

0 投票
1 回答
817 浏览

r - 数据框中的字符串模糊匹配

我有一个包含文章标题和相关 url 链接的数据框。

我的问题是相应标题的行中不需要url链接,例如:

我的猜测是我需要考虑如此模糊的匹配逻辑,但我不确定如何。对于重复项,我将只使用unique函数。

我开始使用包中的levenshteinSim函数RecordLinkage,它为每一行给出一个相似度得分,但显然由于行不匹配,所以到处的相似度得分都很低。

我也从包中听说过这个stringdistmatrix功能,stringdist但不知道如何在这里使用它。

0 投票
0 回答
566 浏览

mysql - 使用 mysql DB 将 Dedupe 包功能扩展到大数据

我现在一直在尝试制作一个地名词典/重复数据删除的工作示例,该示例可以扩展到连接到 SQL 的半大型数据集(使用包提供的示例)并且没有成功。如果有人可以为我提供一些帮助或分享他们的工作样本,我将不胜感激。

到目前为止我尝试过的事情:

  • 我已经尝试过SQL 示例。我不得不打破一些 sql 代码来分隔创建和插入语句以满足 GTID 标准,但其他一切都遵循示例。我遇到的问题是当它到达集群部分时(在看似成功运行到该点之后)并给我以下错误:
    “dedupe.core.BlockingError:没有记录被阻止在一起。是你的数据试图像你训练的数据一样匹配?” 无论我做了什么,这都没有解决(我正在对相同的数据进行训练和测试,所以这个错误对我来说没有意义。)

  • 对于大型地名词典,我曾尝试使用此示例开始,但这是我得到的错误:“TypeError:train() 最多需要 3 个参数(给定 4 个)”。我在这里所做的唯一更改是连接到 mysql 数据库。此外,我找不到任何关于如何实际扩展地名词典匹配所有部分的指导(或者只是不明白这个例子是如何帮助的)。

有没有人能够使用 mysql 将这些实际扩展到大数据?

如果我需要提供更多信息或代码片段,请告诉我。

提前致谢。

0 投票
1 回答
651 浏览

sql-server - Pandas 从 MSSQL 加载数据帧

我正在尝试将数据加载到数据框中,以便稍后在 recordlinkage 中使用它,但是出现错误:

空 DataFrame 列:[FirstName,LastName,CompanyName] 索引:[]

而且我不确定我做错了吗?

代码: