我正在使用 RevoR entreprise 来处理导入大型数据文件。文档中给出的示例指出,将使用 rxImport 循环将 10 个文件(每个 1000000 行)作为数据集导入,如下所示:
setwd("C:/Users/Fsociety/Bigdatasamples")
Data.Directory <- "C:/Users/Fsociety/Bigdatasamples"
Data.File <- file.path(Data.Directory,"mortDefault")
mortXdfFileName <- "mortDefault.xdf"
append <- "none"
for(i in 2000:2009){
importFile <- paste(Data.File,i,".csv",sep="")
mortxdf <- rxImport(importFile, mortXdfFileName, append = append, overwrite = TRUE, maxRowsByCols = NULL)
append <- "rows"
}
mortxdfData <- RxXdfData(mortXdfFileName)
knime.out <- rxXdfToDataFrame(mortxdfData)
这里的问题是我在数据集中只得到 500000 行,因为maxRowsByCols
参数默认是1e+06
我将其更改为更高的值,然后更改为,NULL
但它仍然会截断文件中的数据。