我有两个带有许多变量的数据框。主要关注的是以下变量,df1.organization_name 和 df2.legal.name。我只是在这里使用完全限定的 SQL 式名称。
df1 的尺寸为 15 x 2700,而 df2 的尺寸为 10x40,000。本质上,“通用”或“匹配”列是名称字段。
我通过 R 中的变量的模糊匹配查看了这篇文章 Merging,它非常有帮助,但我真的不知道如何处理脚本以使其与我的 dfs 一起使用。
我不断收到一个错误 - 错误其中(organization_name [i] == LEGAL.NAME):找不到对象'LEGAL.NAME'。
期望的匹配和结果
我想要做的是将我的每一个 df1.organization_name 与每一个 df2.legal_name 进行比较,如果它们非常接近(比如> = 85%),请进行比较。然后像上面的脚本一样,获取匹配的客户名称和匹配的比较名称,并将它们放入 data.frame 以供以后分析。
因此,如果我的客户名称之一是“Johns Hopkins Auto Repair”,而我的公共列表名称之一是“John Hopkins Microphone Repair”,我会认为这是一个很好的匹配,我希望在我的客户列表中附加某种指示符(在另一列中)显示“部分匹配”和公共列表中的名称。
用于文本整理的 dfs 示例:
df1.organization_name(这些是假名 b/c 我不能发布客户名称)
- My Company LLC
- John Johns DBA John's Repair
- Some Company Inc
- Ninja Turtles LLP
- Shredder Partners
df2.LEGAL.NAME(这些是来自开源文件的真实姓名)
- $1 & UP STORE CORP.
- $1 store 0713
- LLC 0baid/munir/gazem
- 1 2 3 MONEY EXCHANGE LLC
- 1 BOY & 3 GIRLS, LLC
- 1 STAR BEVERAGE INC
- 1 STOP LLC
- 1 STOP LLC
- 1 STOP LLC DBA TIENDA MEXICANA LA SAN JOSE
- 1 Stop Money Centers, LLC/Richard