r - R中不同长度数据帧的名称匹配

Question

我有两个带有许多变量的数据框。主要关注的是以下变量，df1.organization_name 和 df2.legal.name。我只是在这里使用完全限定的 SQL 式名称。

df1 的尺寸为 15 x 2700，而 df2 的尺寸为 10x40,000。本质上，“通用”或“匹配”列是名称字段。

我通过 R 中的变量的模糊匹配查看了这篇文章 Merging，它非常有帮助，但我真的不知道如何处理脚本以使其与我的 dfs 一起使用。

我不断收到一个错误 - 错误其中（organization_name [i] == LEGAL.NAME）：找不到对象'LEGAL.NAME'。

期望的匹配和结果

我想要做的是将我的每一个 df1.organization_name 与每一个 df2.legal_name 进行比较，如果它们非常接近（比如> = 85％），请进行比较。然后像上面的脚本一样，获取匹配的客户名称和匹配的比较名称，并将它们放入 data.frame 以供以后分析。

因此，如果我的客户名称之一是“Johns Hopkins Auto Repair”，而我的公共列表名称之一是“John Hopkins Microphone Repair”，我会认为这是一个很好的匹配，我希望在我的客户列表中附加某种指示符（在另一列中）显示“部分匹配”和公共列表中的名称。

用于文本整理的 dfs 示例：

df1.organization_name（这些是假名 b/c 我不能发布客户名称）

- My Company LLC
- John Johns DBA John's Repair
- Some Company Inc
- Ninja Turtles LLP
- Shredder Partners

df2.LEGAL.NAME（这些是来自开源文件的真实姓名）

- $1 & UP STORE CORP. 
- $1 store 0713
- LLC 0baid/munir/gazem 
- 1 2 3 MONEY EXCHANGE LLC 
- 1 BOY & 3 GIRLS, LLC 
- 1 STAR BEVERAGE INC 
- 1 STOP LLC
- 1 STOP LLC 
- 1 STOP LLC DBA TIENDA MEXICANA LA SAN JOSE 
- 1 Stop Money Centers, LLC/Richard

r - R中不同长度数据帧的名称匹配

0 回答 0

Related

Reference