bigdata - 要读入 R 的海量文本文件

Question

所以故事是我有一个需要读入 R 的 30 gig txt 文件，它包含两个列和大约 20 亿行整数！我不想一次加载整个东西，相当大的块就足够了。

我尝试使用带有 nrow = 10000000 和 skip = "stupidly_large_number" 等参数的 read.table

但是当我深入阅读文件时出现以下错误

Error in readLines(file, skip):
    cannot allocate vector of length 1800000000

请帮助我获取数据并提前致谢！

score 0 · Accepted Answer

在我看来，您可能需要先将文本文件拆分为可管理的块，然后再尝试处理它们。unix split 命令应该可以解决问题，但我不知道您是否在存在该命令的平台上。

1 回答 1