6

我不太明白这个输出中的 p 值是什么意思。我不是指这样的 p 值,而是在这种情况下。

> Model 1: sl ~ le + ky 
> Model 2: sl ~ le   
  Res.Df     RSS Df   Sum of Sq      F Pr(>F) 
1     97 0.51113                              
2     98 0.51211 -1 -0.00097796 0.1856 0.6676

我得到了类似的东西,现在我想知道哪种型号更合适。由于只有一个而不是两个 p 值,我感到困惑。我使用 summary(model1) 或 summary(model2) 得到不同的 pvalue

现在如果

> fm2<-lm(Y~X+T)

(T 是我的指标变量)和

> fm4<-lm(Y~X)

如果我做

> anova(fm2,fm4)

这测试了原假设H0: alpha1==alpha2 (Ha: alpha1!=alpha2)c(alpha 是我的截距) 所以测试是有一个截距 (=> alpha1==alpha2) 还是两个截距 ( alpha1!=alpha2)更好

在这种情况下,我们现在显然会拒绝零假设,因为 p 值为 0.6676。

这意味着我们应该坚持使用 model fm4,因为它更适合我们的数据。

我得出的结论对吗?我尽了最大努力,但我不确定 p 值是什么意思。因为只有 on,这就是我认为它可能的意思。有人可以澄清一下吗?

4

1 回答 1

6

您的意思是“不会明显拒绝零假设”(而不是“现在明显拒绝”)?考虑到您的其余问题,这似乎更有意义。

只有一个 p 值,因为有两个模型要比较,因此只有一个比较(零假设与替代方案,或者在这种情况下实际上是零假设与未指定的替代方案)。从您上面所说的听起来好像le是一个连续的并且ky是一个分类预测器,在这种情况下,您正在将具有斜率和截距的模型与(如您所说的)具有单个斜率和两个截距的模型进行比较。因为 p 值相对较大,这意味着数据没有提供 的加性效应的证据ky。更简单的模型通常更合适(尽管要小心这个结论,因为构建 p 值是为了检验假设,而不是在模型中进行选择)。

您为summary()每个单独模型获得的 p 值是每个模型中每个参数的影响的 p 值,条件是该模型中的所有其他参数。如果您的数据是完全平衡的(这在回归设计中不太可能),您应该从summary和得到相同的答案anova,但否则结果anova通常更可取。

这个问题可能更适合http://stats.stackexchange.com,因为它实际上是关于统计解释而不是编程......

于 2012-10-12T18:46:06.830 回答