6

我使用随机森林算法作为我论文项目的分类器。训练集由数千张图像组成,每张图像采样大约 2000 个像素。对于每个像素,我有数十万个特征。由于我目前的硬件限制(8G 内存,可能扩展到 16G),我只能将样本(即每个像素的特征)放入内存中,用于一张图像。我的问题是:是否可以多次调用 train 方法,每次使用不同的图像样本,并在每次调用时自动更新统计模型?我对变量重要性特别感兴趣,因为在我用整个特征集训练完整的训练集之后,我的想法是将特征的数量从几十万减少到大约 2000,只保留最重要的。

谢谢你的任何建议,丹尼尔

4

2 回答 2

2

我不认为该算法支持增量训练。您可以考虑使用其他特征缩减方法在训练之前减小描述符的大小。或者估计所有训练图像中随机像素子集的变量重要性,尽可能多地填充到内存中......

于 2012-11-06T10:50:22.020 回答
1

请参阅我对这篇文章的回答。随机森林有增量版本,它们可以让你在更大的数据上进行训练。

于 2012-11-15T15:04:09.027 回答