6

C参数中的含义是什么sklearn.linear_model.LogisticRegression?它如何影响决策边界?高值C会使决策边界非线性吗?如果我们可视化决策边界,逻辑回归的过度拟合会是什么样子?

4

1 回答 1

10

从文档中:

C: float, default=1.0 正则化强度的倒数;必须是正浮点数。与支持向量机一样,较小的值指定更强的正则化。

如果你不明白这一点,Cross Validated 可能比这里更好。

虽然 CS 人员经常将函数的所有参数称为“参数”,但在机器学习中,C 被称为“超参数”。参数是告诉模型如何处理特征的数字,而超参数告诉模型如何选择参数。

正则化通常是指对于更极端的参数应该有复杂性惩罚的概念。这个想法是,仅查看训练数据而不注意参数的极端程度会导致过度拟合。较高的 C 值告诉模型对训练数据给予较高的权重,而对复杂性惩罚给予较低的权重。较低的值告诉模型以适应训练数据为代价给予这种复杂性惩罚更多的权重。基本上,高 C 表示“非常信任这个训练数据”,而低值表示“这个数据可能不能完全代表真实世界的数据,所以如果它告诉你让参数变得非常大,请不要听对它”。

https://en.wikipedia.org/wiki/Regularization_(数学)

于 2021-05-13T02:30:53.620 回答