我非常感谢您抽出时间阅读本文。
我有一个包含 600 万条记录和 3000 个(主要是分类数据)列的 csv 格式的超大 30GB 文件。我想为多项回归引导子样本,但即使我的机器中有 64GB RAM 和两倍的交换文件,这也很困难,这个过程变得非常缓慢并停止。
我正在考虑在 R 中生成子样本索引并使用 sed 或 awk 将它们输入系统命令,但不知道如何执行此操作。如果有人知道仅使用 R 命令来执行此操作的干净方法,我将不胜感激。
一个问题是我需要选择对子样本的完整观察,也就是说,我需要拥有特定多项式观察的所有行——它们从观察到观察的长度不同。我计划使用 glmnet,然后使用一些花哨的变换来获得多项式情况的近似值。另一点是我不知道如何选择样本大小以适应内存限制。
非常欣赏你的想法。
R.version
platform x86_64-pc-linux-gnu
arch x86_64
os linux-gnu
system x86_64, linux-gnu
status
major 2
minor 15.1
year 2012
month 06
day 22
svn rev 59600
language R
version.string R version 2.15.1 (2012-06-22)
nickname Roasted Marshmallows
尤达