我的数据组织在一个包含数百万行和几列的 csv 文件中。该文件太大,无法一次全部读入内存。
幸运的是,我只想计算一些统计数据,比如每 100 行每列的平均值等。我的解决方案基于其他帖子,其中将 read.csv2 与选项 nrow 和 skip 一起使用。这行得通。
但是,我意识到从文件末尾加载时,这个过程非常慢。据我所知,读者似乎在浏览文件,直到它通过了我说要跳过然后阅读的所有行。当然,这是次优的,因为它每次都在读取初始行。
有没有像python解析器这样的解决方案,我们可以逐行读取文件,在需要时停止,然后继续?并保持来自 read.csv2 的良好阅读简单性?