r - R - 用小内存读取大文件

问问题 2018-03-27T13:23:11.927

558 次

我的数据组织在一个包含数百万行和几列的 csv 文件中。该文件太大，无法一次全部读入内存。

幸运的是，我只想计算一些统计数据，比如每 100 行每列的平均值等。我的解决方案基于其他帖子，其中将 read.csv2 与选项 nrow 和 skip 一起使用。这行得通。

但是，我意识到从文件末尾加载时，这个过程非常慢。据我所知，读者似乎在浏览文件，直到它通过了我说要跳过然后阅读的所有行。当然，这是次优的，因为它每次都在读取初始行。

有没有像python解析器这样的解决方案，我们可以逐行读取文件，在需要时停止，然后继续？并保持来自 read.csv2 的良好阅读简单性？

0 回答 0