2

任何人都可以很好地参考如何在不保存输入数据的情况下进行多元普通线性回归(并获得结果的 R 平方)。用例是一个包含太多行无法存储的数据集。可以通过累积 x[i]*x[j] 和 y * x[i] 来获得回归,然后从那里进行矩阵数学运算,但是我找不到类似的公式来获得统计数据完成(对于初学者来说,R 平方)。谢谢。

4

1 回答 1

1

我没有很好的参考,但我处理它的方法是扩展平方和表达式,并根据您积累的期望来编写它们。

  • <.>用来表示对数据行进行平均,所以这<y>是 y 值的平均值,依此类推

  • <x[i]*x[j]>在任何时候,我们都可以从矩阵和向量中获得回归系数 a[i] 和 b,<y*x[i]>如您在问题中指出的那样

  • 下面我将sum_i{ a[i]*x[i] }用来表示组成自变量的组件的总和。
  • 设 N 为使用的数据行数

一种计算解释均方偏差的方法是:

SS_reg/N = < (f -<y> )^2 >    

         = < ( sum_i {a[i]*x[i] } + b - <y> )^2 > 
         = < sum_i { a[i]^2*x[i]^2}  +b^2 +<y>^2 +sum_i{ 2*b*a[i]*x[i]}-2*<y>* sum_i{a[i]*x[i]}-2*b*<y> >
         = sum_i { a[i]^2*<x[i]*x[i]> } +
           b^2 +
           <y>^2 + 
           2*b*sum_i{a[i]*<x[i]>} -
           2*<y>*sum_i{ a[i]*<x[i]>} -
           2*b*<y>

您已经<x[i]*x[i]>将矩阵的对角元素保留为用于推导回归系数的矩阵。您还需要维护自变量(<x[i]>每个i)以及因变量(<y>)的平均值

可以对总均方误差或残差均方误差进行类似的扩展,然后用于计算 R^2 值。

于 2012-07-03T19:08:08.110 回答