在线性模型 y = a_0 + (a_1 × x_1 ) + (a_2 × x_2 ) + (a_3 × x_i ) + ϵ 中,i∈[3,4,…,100] 的值是什么导致模型具有最高的 R -平方?
给定具有 1 个因变量和 100 个自变量的 CSV 文件。
在线性模型 y = a_0 + (a_1 × x_1 ) + (a_2 × x_2 ) + (a_3 × x_i ) + ϵ 中,i∈[3,4,…,100] 的值是什么导致模型具有最高的 R -平方?
给定具有 1 个因变量和 100 个自变量的 CSV 文件。
这个问题没有多大意义。
让我们看一下决定系数的定义(即“R平方”):
R^2 = 1 - sum(e_i) / ((n - 1) * s^2)
其中sum(e_i)
是残差平方和,s^2
是样本方差。
添加越来越多的预测变量可能会降低残差平方和,但由于过度拟合,预测性能会很差。
所以这里的关键问题是:哪些特征(变量)对于具有强大预测性能的最佳模型很重要。
这个问题将远远超出 SO(或任何其他论坛),我推荐一本(任何)关于统计建模的教科书。