“record-linkage”的相关标签问题

0 投票

1 回答

245 浏览

r - 在R中的数据框中显示相应的值

请检查下面的代码，我使用下面的三个变量创建了一个数据框，变量“y123”计算列 a2 与 a1 之间的相似性。变量“y123”给了我总共 16 个值，其中每个 a1 值都与 a2 进行比较。我的需要是，当将特定的“a1”值与特定的“a2”值进行比较时，我希望在“a2”旁边显示相应的“a3”值。所以结果应该是一个数据框，其中列 y123 和第二列，对应的“a3”列出现四次，即 16 个值。谢谢，请帮忙。

我需要一些东西列出这个：

r dplyr stringdist record-linkage

0 投票

1 回答

417 浏览

r - 通过排除 R 中的相同条目来计算文本字符串中的相似性百分比

给定的 R 脚本计算两个名称之间的相似度百分比，如图所示。这里我们有两列“names1”和“names2”，它们各自的 id 在 id1 和 id2 中。我的要求是，当我们执行脚本时，“names1”中的每个名称都与“names2”列中的每个名称进行比较，我不希望将相同的条目，即 (id1,names1) 列与 ( id2,names2) 列。对于插图，第一个 (id1,names1) 条目 (1,Prabhudev Ramanujam) 应该与所有 (id2,names2) 进行比较，而不是与第一个 (id2,names2) 条目进行比较。同样适用于所有对。另外，如果公式

可以调整以在此处产生类似且更快的结果，因为它会减慢大数据的速度，请附加快照，请帮助。

r dplyr cosine-similarity stringdist record-linkage

0 投票

1 回答

227 浏览

r - R中文本挖掘在大型数据集上的应用

下面的 R 脚本计算列“names1”和“names2”中两个文本字符串之间的百分比相似度。但是，我的要求是对 6k-10K+ 列项执行相同的操作。当下面的公式应用于如此大的列时，由于行项目数以百万计，因此该解决方案被折腾，并且对于企业交付而言并不重要。除了“百分比”列之外，我还需要添加 6-7 个其他列，这将使解决方案大小超过 1 GB。请帮助我更新脚本，否则可能的解决方案可以实现相同的目标。非常感谢。

r dplyr text-mining stringdist record-linkage

0 投票

0 回答

123 浏览

python - 用于匹配用户记录属性的模糊逻辑

我正在尝试提出一种算法来匹配一组用户属性，基于权重年龄（与其他属性相比，很少有属性具有更高的优先级），以便拥有一个基于模糊逻辑中最匹配的便捷推荐引擎. 我发现具有挑战性的是属性是数字和文字的混合，而且在考虑作为任何字符串匹配的输入之前，需要对 IMO 进行处理的一堆枚举（A1、C2 等）。

任何指向现有 Python 库或类似算法的指针都会对我有所帮助。

python recommendation-engine fuzzy-logic record-linkage

0 投票

0 回答

56 浏览

hash - 记录链接上下文中的文本匿名化

我有两个数据集需要链接在一起，因为我必须在一定的误差范围内找到出现在两个数据集中的记录（例如，一个人的名字在其中一个集中拼写错误，一个人搬家、结婚并因此获得了不同的姓氏等）

由于数据是敏感的，因此应该匿名。但是，我不能使用标准的匿名化技术（例如散列），因为这不会保留一些对链接记录至关重要的属性。

因此，我正在寻找一种方法来匿名化我的文本数据，以保留例如 Levenshtein 距离。这种技术存在吗？

hash levenshtein-distance record-linkage anonymize

0 投票

1 回答

338 浏览

python - Python RecordLinkage - 监督机器学习错误

我正在使用 python Recordlinkage 库构建一个机器学习模型，其中模型将使用预先匹配的数据进行训练。

下面是代码片段：

我收到错误消息：

KeyError：“['TrueMatchID'] 不在索引中”

样本数据：

代码中似乎有什么问题？我对 Python 比较陌生，所以不确定我是否传递了一些错误的论点。

python record-linkage

0 投票

1 回答

424 浏览

r - 将两个数据集与 R 中的记录链接匹配

我正在尝试匹配 R 中的两个数据集：datasetA 和 datasetB。这些数据集包含以下列。

数据集A

编号：15
姓名：彼得·桑德斯
名字：彼得
姓氏：桑德斯
ORG_NAME：咖啡和蛋糕
城市：纽约
金额（美元）：10369
类别：食品和饮料
日期：2014 年 12 月 1 日

datasetB 有类似的列：

ORG_ID:5241
姓名：彼得·桑德
名字：彼得
姓名：桑德
company_name: 咖啡和蛋糕
地点：纽约
资助：10000
sub_cat：餐厅
开始日期：2013-01-09 16:42:56
结束日期：2015-01-04 11:43:39

唯一完全匹配的是名字“peter”。但是我的数据集包含许多公司，所以我的数据集中会有很多不是同一个人的“彼得”。因此，我想匹配多列中的相似性。

我想根据所有列中的信息匹配这两个数据集。我想我需要 Levenshtein Similarity 和 compare.linkage ，但是我没有成功。

有谁知道我怎么能匹配这个？任何帮助将不胜感激。

r compare matching levenshtein-distance record-linkage

0 投票

1 回答

817 浏览

r - 数据框中的字符串模糊匹配

我有一个包含文章标题和相关 url 链接的数据框。

我的问题是相应标题的行中不需要url链接，例如：

我的猜测是我需要考虑如此模糊的匹配逻辑，但我不确定如何。对于重复项，我将只使用unique函数。

我开始使用包中的levenshteinSim函数RecordLinkage，它为每一行给出一个相似度得分，但显然由于行不匹配，所以到处的相似度得分都很低。

我也从包中听说过这个stringdistmatrix功能，stringdist但不知道如何在这里使用它。

r fuzzy-logic stringdist record-linkage

0 投票

0 回答

566 浏览

mysql - 使用 mysql DB 将 Dedupe 包功能扩展到大数据

我现在一直在尝试制作一个地名词典/重复数据删除的工作示例，该示例可以扩展到连接到 SQL 的半大型数据集（使用包提供的示例）并且没有成功。如果有人可以为我提供一些帮助或分享他们的工作样本，我将不胜感激。

到目前为止我尝试过的事情：

我已经尝试过SQL 示例。我不得不打破一些 sql 代码来分隔创建和插入语句以满足 GTID 标准，但其他一切都遵循示例。我遇到的问题是当它到达集群部分时（在看似成功运行到该点之后）并给我以下错误：
“dedupe.core.BlockingError：没有记录被阻止在一起。是你的数据试图像你训练的数据一样匹配？” 无论我做了什么，这都没有解决（我正在对相同的数据进行训练和测试，所以这个错误对我来说没有意义。）
对于大型地名词典，我曾尝试使用此示例开始，但这是我得到的错误：“TypeError：train() 最多需要 3 个参数（给定 4 个）”。我在这里所做的唯一更改是连接到 mysql 数据库。此外，我找不到任何关于如何实际扩展地名词典匹配所有部分的指导（或者只是不明白这个例子是如何帮助的）。

有没有人能够使用 mysql 将这些实际扩展到大数据？

如果我需要提供更多信息或代码片段，请告诉我。

提前致谢。

mysql performance record-linkage python-dedupe entityresolver

0 投票

1 回答

651 浏览

sql-server - Pandas 从 MSSQL 加载数据帧

我正在尝试将数据加载到数据框中，以便稍后在 recordlinkage 中使用它，但是出现错误：

空 DataFrame 列：[FirstName，LastName，CompanyName] 索引：[]

而且我不确定我做错了吗？

代码：

sql-server python-3.x pandas record-linkage

问题标签 [record-linkage]

Reference