25

我想将不同分类器的不同错误率与弱学习器的错误率(比随机猜测好)进行比较。所以,我的问题是,对于一个简单、易于处理的弱学习器有哪些选择?或者,我是否错误地理解了这个概念,弱学习者只是我选择的任何基准(例如,线性回归)?

4

2 回答 2

38

比随机猜测好

这基本上是弱学习者的唯一要求。只要您能够始终如一地击败随机猜测,任何真正的提升算法都能够提高最终集成的准确性。你应该选择的弱学习器是在 3 个因素之间进行权衡:

  1. 模型的偏差。较低的偏差几乎总是更好,但你不想选择会过拟合的东西(是的,提升可以而且确实过拟合)
  2. 弱学习器的训练时间。一般来说,我们希望能够快速学习弱学习器,因为我们将构建数百(或数千)个。
  3. 我们弱学习器的预测时间。如果我们使用一个预测速度较慢的模型,我们的集合将会慢几百倍!

经典的弱学习器是决策树。通过更改树的最大深度,您可以控制所有 3 个因素。这使得它们在提升方面非常受欢迎。您应该使用什么取决于您的个人问题,但决策树是一个很好的起点。

注意:只要算法支持加权数据实例,任何算法都可以用于提升。我大学的一位演讲嘉宾正在为他在计算生物学方面的工作提升 5 层深度神经网络。

于 2013-12-07T16:07:57.970 回答
10

弱学习器基本上是每个特征的阈值。一个简单的例子是在 bagging 或 boosting 中应用的称为决策树桩的 1 级决策树。它只是为一个特征选择一个阈值并在该阈值上拆分数据(例如,根据花瓣宽度确定鸢尾花是 Iris versicolor 还是 Iris virginica )。然后通过 bagging 或 AdaBoost 对这个特定特征进行训练。

于 2013-12-07T07:04:47.633 回答