0

max_depthVSmin_samples_leaf

在多次max_depth尝试min_samples_leaf使用GridSearchCV. 据我了解,这两个参数都是控制树木深度的一种方式,如果我错了,请纠正我

max_features

我正在做一个非常简单的分类任务,更改min_samples_leaf似乎对 AUC 分数没有影响;但是,调整深度可以将我的 AUC 从 0.79 提高到 0.84,非常显着。似乎没有其他任何影响它。我认为我应该调整的主要内容是max_features,但是,最佳结果值离sqrt(n_features).

scoring='roc_auc'

另一个问题,我注意到如果在更改树的数量时所有参数都固定,GridSearchCV将始终选择最大数量的树。这是可以理解的,但由于某种原因,AUC 略有下降scoring='roc_auc'。为什么会这样?它是否考虑 oob_score 。

请随时分享任何有助于理解如何系统地调整随机森林的资源,因为似乎几乎没有相互影响的相关参数。

4

1 回答 1

2

当您增加最大深度时,您会增加方差并减少偏差。另一方面,当您增加最小样本叶时,您会减少方差并增加偏差。

因此,这些参数将控制生长树时的正则化水平。总之,减少任何max*参数并增加任何min*参数都会增加正则化。

其次,很难说你的准确率为什么会下降。您可能想尝试嵌套 CV,以了解best_params_在推广到看不见的数据时展示的准确度范围。

于 2017-05-15T03:26:41.050 回答