machine-learning - 决定在机器学习回归中为非线性数据选择哪个多项式

Question

我不是 ML 方面的专家，最近我开始一个接一个地实现 ML 算法。成功实现逻辑回归后，我遇到了如何选择给定数据集的多项式模型的问题？我们根据输入特征（比如m个样本数据集的n 个特征）有不同的多项式组合，但是有没有办法选择最佳拟合多项式？我有两个想法，我不确定它们是否正确。如果科学家使用任何特定的算法或过程，请注意我。谢谢。

是否就像我们运行不同的多项式并查看哪个多项式将导致最低成本？（我感觉这将是一个漫长而痛苦的过程）
绘制数据并可视化以查看最适合的多项式假设（同样，对于多维数据，可视化绘图太难了）

score 1 · Accepted Answer

正如您所说，绘图在高维空间中不起作用。

您必须设置训练测试拆分（或者可能是交叉验证）并寻找哪些特征可以为您提供对测试数据的最佳预测。重要的是，测试数据保持分离以避免过度拟合，即更复杂的函数总是能够更好地逼近您的训练数据，但这并不意味着它们实际上可以泛化。

但通常，您不会为显式使用多项式特征而烦恼，而是会在内核回归中使用不同类型的内核。在你的情况下，那将是一个多项式内核

另一种方法是使用在所使用的变量方面鼓励稀疏性的方法。LASSO 回归会对最小二乘损失产生惩罚，这会鼓励不需要为零的特征参数。因此，您可以只包含所有似乎有意义的组合，最后查看套索以查看哪些参数不为零。

machine-learning - 决定在机器学习回归中为非线性数据选择哪个多项式

1 回答 1

Related

Reference