0

我有两个带有许多变量的数据框。主要关注的是以下变量,df1.organization_name 和 df2.legal.name。我只是在这里使用完全限定的 SQL 式名称。

df1 的尺寸为 15 x 2700,而 df2 的尺寸为 10x40,000。本质上,“通用”或“匹配”列是名称字段。

通过 R 中的变量的模糊匹配查看了这篇文章 Merging,它非常有帮助,但我真的不知道如何处理脚本以使其与我的 dfs 一起使用。

我不断收到一个错误 - 错误其中(organization_name [i] == LEGAL.NAME):找不到对象'LEGAL.NAME'。

期望的匹配和结果

我想要做的是将我的每一个 df1.organization_name 与每一个 df2.legal_name 进行比较,如果它们非常接近(比如> = 85%),请进行比较。然后像上面的脚本一样,获取匹配的客户名称和匹配的比较名称,并将它们放入 data.frame 以供以后分析。

因此,如果我的客户名称之一是“Johns Hopkins Auto Repair”,而我的公共列表名称之一是“John Hopkins Microphone Repair”,我会认为这是一个很好的匹配,我希望在我的客户列表中附加某种指示符(在另一列中)显示“部分匹配”和公共列表中的名称。

用于文本整理的 dfs 示例:

df1.organization_name(这些是假名 b/c 我不能发布客户名称)

- My Company LLC
- John Johns DBA John's Repair
- Some Company Inc
- Ninja Turtles LLP
- Shredder Partners

df2.LEGAL.NAME(这些是来自开源文件的真实姓名)

- $1 & UP STORE CORP. 
- $1 store 0713
- LLC 0baid/munir/gazem 
- 1 2 3 MONEY EXCHANGE LLC 
- 1 BOY & 3 GIRLS, LLC 
- 1 STAR BEVERAGE INC 
- 1 STOP LLC
- 1 STOP LLC 
- 1 STOP LLC DBA TIENDA MEXICANA LA SAN JOSE 
- 1 Stop Money Centers, LLC/Richard
4

0 回答 0