7

我在 R 中有一个大型数据集(1M+ 行 x 6 列),我想用它来训练随机森林(使用randomForest包)用于回归目的。不幸的是,我Error in matrix(0, n, n) : too many elements specified在尝试一次完成整个事情时遇到错误,并且在数据子集上运行时无法分配足够的内存类型的错误 - 低至 10,000 左右的观察。

看到我不可能在我的机器上添加更多 RAM 并且随机森林非常适合我尝试建模的进程类型,我真的很想完成这项工作。

非常感谢任何建议或解决方法的想法。

4

1 回答 1

11

您可能会要求randomForest为数据创建邻近矩阵,如果您考虑一下,它将非常大:100 万 x 100 万。无论您设置多小,都需要这样大小的矩阵sampsize。事实上,简单地谷歌搜索错误消息似乎证实了这一点,因为包作者指出,在整个源代码中唯一 n,n)可以找到的地方是计算邻近矩阵。

但是很难提供更多帮助,因为您没有提供有关您正在使用的实际代码的详细信息。

于 2012-04-06T03:44:49.507 回答