我使用随机森林算法作为我论文项目的分类器。训练集由数千张图像组成,每张图像采样大约 2000 个像素。对于每个像素,我有数十万个特征。由于我目前的硬件限制(8G 内存,可能扩展到 16G),我只能将样本(即每个像素的特征)放入内存中,用于一张图像。我的问题是:是否可以多次调用 train 方法,每次使用不同的图像样本,并在每次调用时自动更新统计模型?我对变量重要性特别感兴趣,因为在我用整个特征集训练完整的训练集之后,我的想法是将特征的数量从几十万减少到大约 2000,只保留最重要的。
谢谢你的任何建议,丹尼尔