我想将不同分类器的不同错误率与弱学习器的错误率(比随机猜测好)进行比较。所以,我的问题是,对于一个简单、易于处理的弱学习器有哪些选择?或者,我是否错误地理解了这个概念,弱学习者只是我选择的任何基准(例如,线性回归)?
问问题
15917 次
2 回答
38
比随机猜测好
这基本上是弱学习者的唯一要求。只要您能够始终如一地击败随机猜测,任何真正的提升算法都能够提高最终集成的准确性。你应该选择的弱学习器是在 3 个因素之间进行权衡:
- 模型的偏差。较低的偏差几乎总是更好,但你不想选择会过拟合的东西(是的,提升可以而且确实过拟合)
- 弱学习器的训练时间。一般来说,我们希望能够快速学习弱学习器,因为我们将构建数百(或数千)个。
- 我们弱学习器的预测时间。如果我们使用一个预测速度较慢的模型,我们的集合将会慢几百倍!
经典的弱学习器是决策树。通过更改树的最大深度,您可以控制所有 3 个因素。这使得它们在提升方面非常受欢迎。您应该使用什么取决于您的个人问题,但决策树是一个很好的起点。
注意:只要算法支持加权数据实例,任何算法都可以用于提升。我大学的一位演讲嘉宾正在为他在计算生物学方面的工作提升 5 层深度神经网络。
于 2013-12-07T16:07:57.970 回答