6

我需要在 R 中将一个大数据框作为 JSON 写入文件。我正在使用 rjson 包。下面的方法很慢......

for (i in 1:nrow(df)) {
      write.table(toJSON(df[i,]),"[FILENAME]",
      row.names=FALSE,col.names=FALSE,quote=FALSE,append=TRUE)
    }

所以我尝试了这个:

write.table(toJSON(df),"FILENAME]",
            row.names=FALSE,col.names=FALSE,quote=FALSE,append=TRUE)

这令人窒息,因为 toJSON() 无法处理长度很长的字符串。所以我想一次写出我的数据表的块。推荐的方法是什么?如果涉及到split(),你能提供一些伪代码吗?

4

2 回答 2

8

这是一个大(ger)数据集

big = iris[rep(seq_len(nrow(iris)), 1000),]

for 循环toJSON(df[i,])创建代表每一行的键值对的平面文件,而toJSON(df)生成列向量;这些是非常不同的。我们的目标是等价于toJSON(df[i,]),但格式化为单个 JSON 字符串。

首先将每个内部元素命名big为列表列表lol(将因子变成一个字符,以免进一步混淆 json),lol看起来像list(big[1,], big[2,], ...)但每个元素都有名称。

big1 <- Map(function(x, nm) setNames(x, rep(nm, length(x))), big, names(big))
big1$Species <- as.character(big1$Species)
lol <- unname(do.call(Map, c(list, big1)))

然后我们把它变成一个vector-of-json,使用rjson库splitIndices并由parallel库提供(可能是其他生成split的方式)

chunks <- 10
json <- sapply(splitIndices(length(lol), chunks), function(idx) toJSON(lol[idx]))

我们几乎可以将 json 块写入文件,但它们并不完全合法——除了最后一个字符串之外的所有字符串都应该以“,”结尾,但以“]”结尾,除了第一个字符串之外的所有字符串都应该以空开头,但是而是以“[”开头。

substring(json[-length(json)], nchar(json)[-length(json)]) = ","
substring(json[-1], 1, 1) = ""

然后这些就可以写入文件了

fl <- tempfile()
writeLines(json, fl)

结合,当然许多列类型强制的特殊情况都没有处理,

library(parallel)  ## just for splitIndices; no parallel processing here...
library(json)
fastJson <- function(df, fl, chunks=10) {
    df1 = Map(function(x, nm) setNames(x, rep(nm, length(x))), df, names(df))
    df1 <- lapply(df1, function(x) {
        if (is(x, "factor")) as.character(x) else x
    })
    lol = unname(do.call(Map, c(list, df1)))

    idx <- splitIndices(length(lol), chunks)
    json <- sapply(idx, function(i) toJSON(lol[i]))
    substring(json[-length(json)], nchar(json)[-length(json)]) <- ","
    substring(json[-1], 1, 1) <- ""
    writeLines(json, fl)
}

> fastJson(big, tempfile())
> system.time(fastJson(big, fl <- tempfile()))
   user  system elapsed 
  2.340   0.008   2.352 
 > system(sprintf("wc %s", fl))
     10      10 14458011 /tmp/RtmpjLEh5h/file3fa75d00a57c

相比之下,只设置 big (没有任何解析为 JSON 或写入文件)需要很长时间:

> system.time(for (i in seq_len(nrow(big))) big[i,])
   user  system elapsed 
 57.632   0.088  57.835 

打开此文件以追加,每行一次,与子设置相比不会花费太多时间

> system.time(for (i in seq_len(nrow(big))) { con <- file(fl, "a"); close(con) })
   user  system elapsed 
  2.320   0.580   2.919 
于 2013-09-20T03:29:44.160 回答
1

第一种方法非常慢的是,每次调用write.table文件时都会打开文件,句柄移动到文件的底部,写入数据,然后关闭文件。如果您只打开一次文件并使用文件句柄,它会快得多。像这样:

fh <- file("[FILENAME]", "w")
for (i in 1:nrow(df)) {
    write.table(toJSON(df[i,]), fh,
                row.names = FALSE, col.names = FALSE, quote = FALSE)
}
close(fh)

我还删除了append = TRUE使用文件连接时暗示的(因此没有必要)。

于 2013-09-20T01:55:56.460 回答