我一直在用 R 中的 700 万行数据(41 个特征)训练 randomForest 模型。这是一个示例调用:
myModel <- randomForest(响应~., data=mydata, ntree=50, maxnodes=30)
我确实认为只有 50 棵树和 30 个终端节点,“myModel”的内存占用会很小。但它在转储文件中是 65 兆。该对象似乎持有来自训练过程的各种预测、实际和投票数据。
如果我只想要森林怎么办?我想要一个很小的转储文件,稍后我可以加载它以快速做出预测。我觉得森林本身不应该那么大......
任何人都知道如何将这个傻瓜分解成我可以预测未来的东西吗?