我有一个包含 2 个字符串和 6 个整数列的 1,000,000 行的大型 data.frame。顺序遍历这个 data.frame 需要花费大量时间,即使没有修改它。这是我正在使用的基本循环:
for( i in 1:1000000 ) {
varA = mydf[i, "varA"]
varB = mydf[i, "varB"]
...
}
处理 100 行大约需要 10 秒,我有几个 1M 的数据块要处理。我不需要修改 data.frame,但我确实需要按顺序读取行(这就是为什么我选择运行 for 循环而不是调用 apply)。
在这种情况下,您更愿意使用 data.table 还是 bigmemory 对象?