0

我有一个数据集,其中包含来自 59 个不同移民法庭的 600 万个法庭诉讼程序。除其他事项外,每条记录都包括一个律师代码。但是,每个唯一的律师都有多个代码。在另一个将律师代码与律师姓名相关联的表中,律师姓名在 firstName、lastName、middleName、Esq 等每个可以想象的排列中以单个字符串的形式列出。律师姓名还包括拼写错误。我相信有超过 10,000 名独特的律师。

以下是与单个律师关联的唯一代码/姓名对的示例,其真实(此处伪装)姓名应为“H. Todd Smith”(第一列是行号):

   attorneycode         attorneyname
16          SEH  H. TODD SMITH, ESQ.
26          HTS  H. TODD SMITH, ESQ.
23          HTS  SMITH ESQ., H. TODD
9           HTS SMITH, ESQ., H. TODD
18          SES SMITH, ESQ., TODD H.
7           SES       SMITH, H. TODD
12          S02       SMITH, H. TODD
1           Q<B Smith, H. Todd, Esq.
2           SHT Smith, H. Todd, Esq.
3           ..T Smith, H. Todd, Esq.
5           HTS Smith, H. Todd, Esq.
8           SHT SMITH, H. TODD, ESQ.
21          SH0 SMITH, H. TODD, ESQ.
20          ses          smith, todd
11          SES       SMITH, TODD H.
6           SSM SMITH, TODD H., ESQ.
4           SES  Todd H. Smith, Esq.
17          THM  TODD H. SMITH, ESQ.

我的目标是为每个唯一的律师及其所有当前关联的代码/姓名分配一个唯一的 ID。但是没有我可以“匹配”的“真实”名称列表。如何生成唯一律师姓名的最佳候选人列表?

编辑

Richie Cotton 建议在另一篇文章中回答了这个问题——但另一篇文章处理的是“重复”记录,而在我的数据中,这些不是重复的,而是似乎与同一个人相关的独特记录,尽管没有这样编码. 此外,链接帖子中的主要建议答案涉及使用 CRAN 上不再可用的包。我是不是误会了什么?

4

0 回答 0