我正在使用 ff 和 R,因为我有一个庞大的数据集(大约 16 GB)可以使用。作为一个测试用例,我让文件读取大约 1M 条记录并将其写为 ff 数据库。
system.time(te3 <- read.csv.ffdf(file="testdata.csv", sep = ",", header=TRUE, first.rows=10000, next.rows=50000, colClasses=c("numeric","numeric","numeric","numeric")))
我在这里上传了结果文件(te3):http: //bit.ly/1c8pXqt
我试图做一个简单的计算来创建一个新变量
ffdfwith(te3, {odfips <- ofips*100000 + dfips})
我收到以下错误(没有丢失的记录),这让我很困惑:
Error in if (by < 1) stop("'by' must be > 0") : missing value where TRUE/FALSE needed
In addition: Warning message: In chunk.default(from = 1L, to = 1000000L, by = 2293760000, maxindex = 1000000L) : NAs introduced by coercion
任何见解将不胜感激。此外,与 FF 相关,是否可以在 FF 数据库中使用标准 R 包,例如 MCMC(我需要使用反伽马函数)?
TIA,
克里希南