应该如何决定使用线性回归模型还是非线性回归模型?
我的目标是预测 Y。
如果是简单的x和y数据集,我可以通过绘制散点图轻松决定应该使用哪个回归模型。
在x1,x2,...,xn和y等多变量的情况下。我如何决定必须使用哪个回归模型?也就是说,我将如何决定使用简单的线性模型或非线性模型,例如二次、三次等。
是否有任何技术或统计方法或图形来推断和决定必须使用哪个回归模型?请指教。
应该如何决定使用线性回归模型还是非线性回归模型?
我的目标是预测 Y。
如果是简单的x和y数据集,我可以通过绘制散点图轻松决定应该使用哪个回归模型。
在x1,x2,...,xn和y等多变量的情况下。我如何决定必须使用哪个回归模型?也就是说,我将如何决定使用简单的线性模型或非线性模型,例如二次、三次等。
是否有任何技术或统计方法或图形来推断和决定必须使用哪个回归模型?请指教。
这是一个相当复杂的问题。
您首先从视觉上开始:如果数据是正态分布的,并且满足经典线性模型的条件,则使用线性模型。我通常首先制作一个散点图矩阵来观察这些关系。如果很明显这种关系是非线性的,那么您使用非线性模型。但是,很多时候,我会目视检查,假设因素的数量不会太多。例如,这将是一个非线性模型:
但是,如果您想使用数据挖掘(和计算要求高的方法),我建议从逐步回归开始。您要做的是首先设置模型评估标准:例如可以是 R^2。您开始一个没有任何内容的模型,然后依次添加预测变量或它们的排列,直到您的模型评估标准“最大化”。然而,添加新的预测变量几乎总是会增加 R^2,这是一种过拟合。
解决方案是将数据拆分为训练和测试。您应该根据训练制作模型并评估测试的平均误差。最好的模型将是最小化测试集平均误差的模型。
如果您的数据稀疏,请尝试在模型评估中集成岭回归或套索回归。
同样,这是一个复杂的问题。答案还取决于您是在构建描述性模型还是解释性模型。