5

我正在尝试实现 AdaBoost 算法,并且有两个问题。

1)在每次迭代中,必须根据概率分布对训练数据进行重新采样。重新采样的数据集的大小是否应该与原始数据集的大小相同。2)如果我根据概率分布对训练数据集进行重新采样,很有可能我可以获得单个数据点的多个副本。我是否应该在每次迭代训练弱分类器时保留所有这些冗余副本。

4

1 回答 1

3

1)你不需要对数据集进行实际的重新采样,只需要在分类器的训练中对数据点进行加权就足够了即弱分类器的目标函数应该是加权的。

如果数据集的大小足够大,您可能还可以使用采样,并且您采样的数据集的大小本身并不重要。

2)如果您确实使用采样并获得冗余副本,则绝对应该保留它们,否则您的弱分类器的目标函数将正确。

于 2012-12-06T16:10:06.010 回答