3

我想通过 r 平方值比较三个模型的曲线拟合。我使用nlsanddrc包运行模型。但是,这些软件包似乎都没有计算 r 平方值。他们给出了“残余标准误差”和“残余平方和”。

这两个可以用来比较模型拟合吗?

4

1 回答 1

13

这实际上是一个统计问题,而不是编码问题:考虑在stats.stackexchange.com上发布;你可能会得到更好的答案。

RSQ 对于非线性回归并没有真正意义。这就是为什么summary.nls(...)不提供它。请参阅此帖子以获取解释。

有一种常见且可以理解的倾向,即希望获得一个统计数据,该统计数据允许人们评估一组模型中的哪一个更适合数据集。不幸的是,它不是那样工作的。这里有一些要考虑的事情。

  1. 通常,最好的模型是具有机械基础的模型。你的模型是否反映了一些物理过程,或者你只是在尝试一堆数学方程并希望得到最好的结果?前一种方法几乎总能产生更好的模型。
  2. 您应该考虑如何使用模型。您将进行插值(例如,在数据集范围内估计 y|x),还是进行外插(在数据范围外估计 y|x)?一些模型产生的拟合可以提供稍微超出数据集范围的相对准确的估计,而其他模型则完全崩溃。
  3. 有时,您拥有的数据类型会建议适当的建模技术。例如,如果您有对某事进行计数的数据,则 y 很可能是泊松分布的,并且表示泊松族中的广义线性模型 (glm)。如果您的数据是二元的(例如,只有两种可能的结果,成功或失败),则指示二项式 glm(所谓的逻辑回归)。
  4. 最小二乘技术的关键基本假设是 y 中的误差呈正态分布,均值为 0,方差恒定。我们可以在拟合后通过查看标准化残差与 y 的图以及查看残差的正态 QQ 图来测试这一点。如果残差图显示散点随 y 增加或减少,则该模型不是一个好的模型。如果正态 QQ 图不接近直线,则残差不是正态分布的,可能指示了不同的模型。
  5. 有时某些数据点对给定模型具有高杠杆作用,这意味着拟合受到这些点的过度影响。如果这是一个问题,您将在杠杆图中看到它。这表明模型很弱。
  6. 对于给定模型,可能并非所有参数都与 0 显着不同(例如,系数的 p 值 > 0.05)。如果是这种情况,您需要探索没有这些参数的模型。对于 nls,这通常意味着完全不同的模型。
  7. 假设您的模型通过了上述测试,那么查看拟合的 F 统计量是合理的。这本质上是针对回归 (R) 和残差 (E) 中的自由度校正的 SSR/SSE 的比率。具有更多参数的模型通常具有更小的残差 SS,但这并不能使其成为更好的模型。F 统计量说明了这一点,因为具有更多参数的模型将具有更大的回归自由度和更小的残差自由度,从而使 F 统计量更小。
  8. 最后,在考虑了上述各项后,您可以考虑残差标准误差。通常,在所有其他条件相同的情况下,残差标准误差越小越好。麻烦的是,所有其他的事情永远都不是平等的。这就是为什么我建议最后看 RSE。
于 2014-02-23T15:35:10.730 回答