我知道这里有很多关于使用 do.call 或 ldply 将 data.frames 列表转换为单个 data.frame 的方法的问题,但这个问题是关于理解这两种方法的内部工作原理并试图找出原因我无法将几乎 100 万个具有相同结构、相同字段名称等的 df 列表连接到单个 data.frame 中。每个 data.frame 为 1 行 21 列。
数据开始是一个 JSON 文件,我使用 fromJSON 将其转换为列表,然后运行另一个 lapply 以提取列表的一部分并转换为 data.frame,最终得到一个 data.frames 列表。
我试过了:
df <- do.call("rbind", list)
df <- ldply(list)
但我不得不在让它运行长达 3 小时并且没有得到任何回报后终止该过程。
有没有更有效的方法来做到这一点?如何解决正在发生的事情以及为什么需要这么长时间?
仅供参考 - 我在带有 RHEL 的 72GB 四核服务器上使用 RStudio 服务器,所以我认为内存不是问题。会话信息如下:
> sessionInfo()
R version 2.14.1 (2011-12-22)
Platform: x86_64-redhat-linux-gnu (64-bit)
locale:
[1] LC_CTYPE=en_US.UTF-8 LC_NUMERIC=C
[3] LC_TIME=en_US.UTF-8 LC_COLLATE=en_US.UTF-8
[5] LC_MONETARY=en_US.UTF-8 LC_MESSAGES=en_US.UTF-8
[7] LC_PAPER=C LC_NAME=C
[9] LC_ADDRESS=C LC_TELEPHONE=C
[11] LC_MEASUREMENT=en_US.UTF-8 LC_IDENTIFICATION=C
attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] multicore_0.1-7 plyr_1.7.1 rjson_0.2.6
loaded via a namespace (and not attached):
[1] tools_2.14.1
>