sql - R / Sql / 其他：处理不完整的数据转储文件

Question

我有一个以逗号分隔的文本文件，但每一行没有相同数量的字段。第一个字段有一个 2 位代码，用于确定该行中有多少字段（它是代码而不是计数）。我很好奇是否有某种标准方法可以处理此类数据以将其放入 SQL 环境中。

文件如下所示：

10,abc,20141001,test@test.com,555-555-5555
20,abc,20141001,123 Main St,Springfield,CT,10001
10,xyz,20141001,test2@test.com,111-111-1111
...

该文件也是〜12 GB，所以我无法在文本编辑器中打开它来操作它。我最初尝试将其读入 R 并使用 grep('^10,') 或类似的东西将其拆分为单独的文件，但似乎我缺少一个编码/分隔符问题。我假设其他人已经处理了类似的数据，并希望得到任何建议。

score 1 · Accepted Answer

假设代码是一致的 - 例如，编码的行都10以相同的方式格式化，您可以执行以下操作：

text <- "10,abc,20141001,test@test.com,555-555-5555
20,abc,20141001,123 Main St,Springfield,CT,10001
10,xyz,20141001,test2@test.com,111-111-1111"

library(data.table)
conn <- textConnection(text)
result.10 <- do.call(rbind,lapply(1:3,function(i){
  x=readLines(conn,n=1)
  if(grepl("^10,",x)) return(setNames(strsplit(x,",")[[1]],c("code","name","date","email","phone")))
#  if(grepl("^20,",x)) return(setNames(strsplit(x,",")[[1]],c("code","name","date","address","city","state","zipcode")))
}))
result.10 <- as.data.table(result.10)
result.10[,code:=NULL]
result.10
#    name     date          email        phone
# 1:  abc 20141001  test@test.com 555-555-5555
# 2:  xyz 20141001 test2@test.com 111-111-1111

然后对等做同样的事情result.20。然后你必须将文件合并为一个，可能基于名称（也许是日期？？），类似于：

setkey(result.10,name,date)
setkey(result.20,name,date)
result <- merge(result.10,result.20,all.x=TRUE,all.y=TRUE)
result
#    name     date          email        phone     address        city state zipcode
# 1:  abc 20141001  test@test.com 555-555-5555 123 Main St Springfield    CT   10001
# 2:  xyz 20141001 test2@test.com 111-111-1111          NA          NA    NA      NA

我使用的是 data.tables 而不是数据框，因为对于这么大的文件，它可能会更快。

sql - R / Sql / 其他：处理不完整的数据转储文件

1 回答 1

Related

Reference