0

我有几个大的(600000+ 行,~50 列)CSV 文件,我通过read.csv(). 每次阅读都会占用我宝贵的几分钟时间,所以我想尽可能加快这一步。我之前做过的一件事是识别出我不想要的列并阻止 R 读取它们。感谢Cross Validated的回答,我想出了这个丑陋的东西来做到这一点:

 > data <- read.csv('data.csv', colClasses=c(rep("NULL", 2), rep(NA, 2),
                                             rep("NULL", 17), rep(NA, 1),
                                             rep("NULL", 28)))

这使得该过程明显更快,但仍然不够快。还有什么我可以做的吗?我正在使用一台好机器(2 GHz Intel Xeon,24 GB RAM),对于不得不等待这么长时间才能导入一个甚至不是很大的数据集感到有点失望。

4

0 回答 0