问题标签 [record-linkage]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 在R中的数据框中显示相应的值
请检查下面的代码,我使用下面的三个变量创建了一个数据框,变量“y123”计算列 a2 与 a1 之间的相似性。变量“y123”给了我总共 16 个值,其中每个 a1 值都与 a2 进行比较。我的需要是,当将特定的“a1”值与特定的“a2”值进行比较时,我希望在“a2”旁边显示相应的“a3”值。所以结果应该是一个数据框,其中列 y123 和第二列,对应的“a3”列出现四次,即 16 个值。谢谢,请帮忙。
我需要一些东西列出这个:
r - 通过排除 R 中的相同条目来计算文本字符串中的相似性百分比
给定的 R 脚本计算两个名称之间的相似度百分比,如图所示。这里我们有两列“names1”和“names2”,它们各自的 id 在 id1 和 id2 中。我的要求是,当我们执行脚本时,“names1”中的每个名称都与“names2”列中的每个名称进行比较,我不希望将相同的条目,即 (id1,names1) 列与 ( id2,names2) 列。对于插图,第一个 (id1,names1) 条目 (1,Prabhudev Ramanujam) 应该与所有 (id2,names2) 进行比较,而不是与第一个 (id2,names2) 条目进行比较。同样适用于所有对。另外,如果公式
可以调整以在此处产生类似且更快的结果,因为它会减慢大数据的速度,请附加快照,请帮助。
r - R中文本挖掘在大型数据集上的应用
下面的 R 脚本计算列“names1”和“names2”中两个文本字符串之间的百分比相似度。但是,我的要求是对 6k-10K+ 列项执行相同的操作。当下面的公式应用于如此大的列时,由于行项目数以百万计,因此该解决方案被折腾,并且对于企业交付而言并不重要。除了“百分比”列之外,我还需要添加 6-7 个其他列,这将使解决方案大小超过 1 GB。请帮助我更新脚本,否则可能的解决方案可以实现相同的目标。非常感谢。
python - 用于匹配用户记录属性的模糊逻辑
我正在尝试提出一种算法来匹配一组用户属性,基于权重年龄(与其他属性相比,很少有属性具有更高的优先级),以便拥有一个基于模糊逻辑中最匹配的便捷推荐引擎. 我发现具有挑战性的是属性是数字和文字的混合,而且在考虑作为任何字符串匹配的输入之前,需要对 IMO 进行处理的一堆枚举(A1、C2 等)。
任何指向现有 Python 库或类似算法的指针都会对我有所帮助。
hash - 记录链接上下文中的文本匿名化
我有两个数据集需要链接在一起,因为我必须在一定的误差范围内找到出现在两个数据集中的记录(例如,一个人的名字在其中一个集中拼写错误,一个人搬家、结婚并因此获得了不同的姓氏等)
由于数据是敏感的,因此应该匿名。但是,我不能使用标准的匿名化技术(例如散列),因为这不会保留一些对链接记录至关重要的属性。
因此,我正在寻找一种方法来匿名化我的文本数据,以保留例如 Levenshtein 距离。这种技术存在吗?
python - Python RecordLinkage - 监督机器学习错误
我正在使用 python Recordlinkage 库构建一个机器学习模型,其中模型将使用预先匹配的数据进行训练。
下面是代码片段:
我收到错误消息:
KeyError:“['TrueMatchID'] 不在索引中”
样本数据:
代码中似乎有什么问题?我对 Python 比较陌生,所以不确定我是否传递了一些错误的论点。
r - 将两个数据集与 R 中的记录链接匹配
我正在尝试匹配 R 中的两个数据集:datasetA 和 datasetB。这些数据集包含以下列。
数据集A
- 编号:15
- 姓名:彼得·桑德斯
- 名字:彼得
- 姓氏:桑德斯
- ORG_NAME:咖啡和蛋糕
- 城市:纽约
- 金额(美元):10369
- 类别:食品和饮料
- 日期:2014 年 12 月 1 日
datasetB 有类似的列:
- ORG_ID:5241
- 姓名:彼得·桑德
- 名字:彼得
- 姓名:桑德
- company_name: 咖啡和蛋糕
- 地点:纽约
- 资助:10000
- sub_cat:餐厅
- 开始日期:2013-01-09 16:42:56
- 结束日期:2015-01-04 11:43:39
唯一完全匹配的是名字“peter”。但是我的数据集包含许多公司,所以我的数据集中会有很多不是同一个人的“彼得”。因此,我想匹配多列中的相似性。
我想根据所有列中的信息匹配这两个数据集。我想我需要 Levenshtein Similarity 和 compare.linkage ,但是我没有成功。
有谁知道我怎么能匹配这个?任何帮助将不胜感激。
r - 数据框中的字符串模糊匹配
我有一个包含文章标题和相关 url 链接的数据框。
我的问题是相应标题的行中不需要url链接,例如:
我的猜测是我需要考虑如此模糊的匹配逻辑,但我不确定如何。对于重复项,我将只使用unique
函数。
我开始使用包中的levenshteinSim
函数RecordLinkage
,它为每一行给出一个相似度得分,但显然由于行不匹配,所以到处的相似度得分都很低。
我也从包中听说过这个stringdistmatrix
功能,stringdist
但不知道如何在这里使用它。
mysql - 使用 mysql DB 将 Dedupe 包功能扩展到大数据
我现在一直在尝试制作一个地名词典/重复数据删除的工作示例,该示例可以扩展到连接到 SQL 的半大型数据集(使用包提供的示例)并且没有成功。如果有人可以为我提供一些帮助或分享他们的工作样本,我将不胜感激。
到目前为止我尝试过的事情:
我已经尝试过SQL 示例。我不得不打破一些 sql 代码来分隔创建和插入语句以满足 GTID 标准,但其他一切都遵循示例。我遇到的问题是当它到达集群部分时(在看似成功运行到该点之后)并给我以下错误:
“dedupe.core.BlockingError:没有记录被阻止在一起。是你的数据试图像你训练的数据一样匹配?” 无论我做了什么,这都没有解决(我正在对相同的数据进行训练和测试,所以这个错误对我来说没有意义。)对于大型地名词典,我曾尝试使用此示例开始,但这是我得到的错误:“TypeError:train() 最多需要 3 个参数(给定 4 个)”。我在这里所做的唯一更改是连接到 mysql 数据库。此外,我找不到任何关于如何实际扩展地名词典匹配所有部分的指导(或者只是不明白这个例子是如何帮助的)。
有没有人能够使用 mysql 将这些实际扩展到大数据?
如果我需要提供更多信息或代码片段,请告诉我。
提前致谢。
sql-server - Pandas 从 MSSQL 加载数据帧
我正在尝试将数据加载到数据框中,以便稍后在 recordlinkage 中使用它,但是出现错误:
空 DataFrame 列:[FirstName,LastName,CompanyName] 索引:[]
而且我不确定我做错了吗?
代码: