1

我有两个数据库。第一个有大约 70k 行和 3 列。第二个有 790k 行 2 列。两个数据库都有一个共同的变量grantee_name。我想基于此将第一个数据库的每一行与第二个数据库的一个或多个行匹配grantee_name。请注意,这merge不起作用,因为grantee_name不完全匹配。有不同的拼写等。所以,我正在使用该fuzzyjoin软件包并尝试以下操作:

library("haven"); library("fuzzyjoin"); library("dplyr")
forfuzzy<-read_dta("/path/forfuzzy.dta")
filings <- read_dta ("/path/filings.dta")
> head(forfuzzy)
# A tibble: 6 x 3
  grantee_name                 grantee_city grantee_state
  <chr>                        <chr>        <chr>        
1 (ICS)2 MAINE CHAPTER         CLEARWATER   FL           
2 (SUFFOLK COUNTY) VANDERBILT~ CENTERPORT   NY           
3 1 VOICE TREKKING A FUND OF ~ WESTMINSTER  MD           
4 10 CAN                       NEWBERRY     FL           
5 10 THOUSAND WINDOWS          LIVERMORE    CA           
6 100 BLACK MEN IN CHICAGO INC CHICAGO      IL   
... 7 - 70000 rows to go

> head(filings)
# A tibble: 6 x 2
  grantee_name                       ein 
  <chr>                             <dbl>               
1 ICS-2 MAINE CHAPTER              123456             
2 SUFFOLK COUNTY VANDERBILT        654321            
3 VOICE TREKKING A FUND OF VOICES  789456            
4 10 CAN                           654987               
5 10 THOUSAND MUSKETEERS INC       789123               
6 100 BLACK MEN IN HOUSTON INC     987321      

rows 7-790000 omitted for brevity

上面的例子很清楚,可以提供一些好的匹配和一些不太好的匹配。请注意,例如,10 THOUSAND WINDOWS将匹配最好,10 THOUSAND MUSKETEERS INC但这并不意味着它是一个很好的匹配。数据中的某处会有更好的匹配filings(上面未显示)。在这个阶段这无关紧要。

所以,我尝试了以下方法:

df<-as.data.frame(stringdist_inner_join(forfuzzy, filings, by="grantee_name", method="jw", p=0.1, max_dist=0.1, distance_col="distance"))

对 R 来说是全新的。这会导致错误:( cannot allocate vector of size 375GB当然是大数据库)。forfuzzy始终有效的 100 行样本。所以,我想一次迭代一个 100 行的列表。

我尝试了以下方法:

n=100
lst = split(forfuzzy, cumsum((1:nrow(forfuzzy)-1)%%n==0))

df<-as.data.frame(lapply(lst, function(df_)
{
(stringdist_inner_join(df_, filings, by="grantee_name", method="jw", p=0.1, max_dist=0.1, distance_col="distance", nthread = getOption("sd_num_thread")))
}
)%>% bind_rows)

我也试过上面用mclapply而不是lapply. 即使我尝试了设置 3 个 CPU 的高性能集群,每个 CPU 有 480G 内存并mclapply与选项一起使用,也会发生同样的错误mc.cores=3。也许foreach命令可以提供帮助,但我不知道如何实现它。

有人建议我使用purrrandrepurrrsive包,所以我尝试以下方法:

purrr::map(lst, ~stringdist_inner_join(., filings, by="grantee_name", method="jw", p=0.1, max_dist=0.1, distance_col="distance", nthread = getOption("sd_num_thread")))

by=grantee_name在声明中出现新手错误之后,这似乎有效。但是,它需要很长时间,我不确定它是否会起作用。forfuzzy一个包含 100 行的示例列表n=10(因此 10 个列表,每个列表 10 行)已经运行了 50 分钟,但仍然没有结果。

4

2 回答 2

0

我以前没有使用过foreach,但也许变量x 已经是zz1 的各个行了?

你有没有尝试过:

stringdist_inner_join(x, zz2, by="grantee_name", method="jw", p=0.1, max_dist=0.1, distance_col="distance")

?

于 2020-10-20T07:13:25.283 回答
0

如果您将 uniquegrantees 数据框拆分(使用base::splitdplyr::group_split)为数据框列表,则可以调用purrr::map该列表。(map差不多lapply

purrr::map(list_of_dfs, ~stringdist_inner_join(., filings, by="grantee_name", method="jw", p=0.1, max_dist=0.1, distance_col="distance"))

您的结果将是一个数据框列表,每个数据框都与文件模糊连接。然后,您可以调用bind_rows(或者您可以调用map_dfr)再次在同一数据框中获取所有结果。

请参阅R - 将大型数据帧拆分为几个较小的日期帧,对每个数据帧执行模糊连接并输出到单个数据帧

于 2020-10-20T14:52:06.063 回答