training-data - 为什么我们需要正则化来训练 MaxEnt？

Question

我正在阅读 jurafsky 的 NLP 书，其中提到为了训练 MaxEnt，我们需要调整权重以防止过度拟合。但我不明白为什么会这样。如果我们不使用正则化，谁能解释在训练过程中过度拟合是如何发生的？

score 2 · Accepted Answer

我没有读过那本书，但作为机器学习的从业者，我可以告诉你，任何类型的模型都可能过拟合。MaxEnt 也不例外。

您可能应该问的问题是，“什么是过拟合，是什么原因造成的？”

考虑到您正在使用的训练数据量，当您尝试估计太多系数时，或者更一般地说，模型过于灵活时，往往会发生过度拟合。结果是您的模型将“学习”数据中的噪声，从而降低其样本外的预测准确性。

有两种处理过拟合的方法。要么 (1) 获得更多的训练数据，要么 (2) 降低模型的复杂性。正则化属于第 (2) 类，通过惩罚“复杂”解决方案来发挥作用，从而减少方差。“复杂”的含义因模型类型而异。

在线和介绍 ML 教科书中有大量关于过度拟合和正则化的材料。如果您想要一个易于理解的解释，我建议您从 Abu-Mostafa 的数据中学习。

1 回答 1