我的 .Rdata 文件大小为 92 MB。
但是,原始 csv 文件大约为 3 GB。我把它包括在通常的read.csv()
这个怎么可能?
评论已经暗示了正在发生的事情。但这太简单了,让我们举个例子:
R> X <- 1:1e5 # data, no repeats
R> save(X, file="/tmp/foo.RData")
R> write.csv(X, file="/tmp/foo.csv")
R> system("ls -l /tmp/foo*")
-rw-r--r-- 1 x y 1377797 Jun 4 09:11 /tmp/foo.csv
-rw-r--r-- 1 x y 212397 Jun 4 09:11 /tmp/foo.RData
现在有重复的数据:
R> X <- rep(1,1e5) # data, lots of repeats
R> write.csv(X, file="/tmp/bar.csv")
R> save(X, file="/tmp/bar.RData")
R> system("ls -lh /tmp/bar*")
-rw-r--r-- 1 x y 966K Jun 4 09:12 /tmp/bar.csv
-rw-r--r-- 1 x y 1.3K Jun 4 09:12 /tmp/bar.RData
R>
所以我们得到的比率为 6.5 到 743,具体取决于压缩的程度。那是在我们通过强制打印几个小数来使 csv 更加“昂贵”之前......