-1

在线性模型 y = a_0 + (a_1 × x_1 ) + (a_2 × x_2 ) + (a_3 × x_i ) + ϵ 中,i∈[3,4,…,100] 的值是什么导致模型具有最高的 R -平方?

给定具有 1 个因变量和 100 个自变量的 CSV 文件。

4

1 回答 1

0

这个问题没有多大意义。

让我们看一下决定系数的定义(即“R平方”):

R^2 = 1 - sum(e_i) / ((n - 1) * s^2)

其中sum(e_i)是残差平方和,s^2是样本方差。

添加越来越多的预测变量可能会降低残差平方和,但由于过度拟合,预测性能会很差。

所以这里的关键问题是:哪些特征(变量)对于具有强大预测性能的最佳模型很重要。

这个问题将远远超出 SO(或任何其他论坛),我推荐一本(任何)关于统计建模的教科书。

于 2018-06-06T02:08:58.153 回答