0

我正在使用随机森林来模拟响应变量。当我查看 OOB 图时,均方误差随着树木数量的增加而直线下降。这种减少的解释是什么?

4

1 回答 1

0

通常,更多的树相当于模型中的更多特征/参数。ML 模型中更多的特征总是会减少训练错误。这仅仅是因为如果这些附加特征没有帮助,那么这些特征将不会被使用,并且训练误差将至少与具有较少特征的模型保持相同。

然而,这并不意味着添加更多特征/参数总是一个好主意,因为训练误差的减少并不意味着泛化误差的减少。换句话说,您的模型可能在训练数据上过度拟合,但可能不会在测试数据上显示错误减少。找到理想树数的一个好方法是绘制随着树数增加的测试误差,并选择测试误差开始平稳的数字。

于 2019-05-10T20:54:18.380 回答