1

我不是 ML 方面的专家,最近我开始一个接一个地实现 ML 算法。成功实现逻辑回归后,我遇到了如何选择给定数据集的多项式模型的问题?我们根据输入特征(比如m个样本数据集的n 个特征)有不同的多项式组合,但是有没有办法选择最佳拟合多项式?我有两个想法,我不确定它们是否正确。如果科学家使用任何特定的算法或过程,请注意我。谢谢。

  1. 是否就像我们运行不同的多项式并查看哪个多项式将导致最低成本?(我感觉这将是一个漫长而痛苦的过程)
  2. 绘制数据并可视化以查看最适合的多项式假设(同样,对于多维数据,可视化绘图太难了)
4

1 回答 1

1

正如您所说,绘图在高维空间中不起作用。

您必须设置训练测试拆分(或者可能是交叉验证)并寻找哪些特征可以为您提供对测试数据的最佳预测。重要的是,测试数据保持分离以避免过度拟合,即更复杂的函数总是能够更好地逼近您的训练数据,但这并不意味着它们实际上可以泛化。

但通常,您不会为显式使用多项式特征而烦恼,而是会在内核回归中使用不同类型的内核。在你的情况下,那将是一个多项式内核

另一种方法是使用在所使用的变量方面鼓励稀疏性的方法。LASSO 回归会对最小二乘损失产生惩罚,这会鼓励不需要为零的特征参数。因此,您可以只包含所有似乎有意义的组合,最后查看套索以查看哪些参数不为零。

于 2020-03-29T15:23:02.997 回答