r - 使用 R 进行失拟 F 检验

Question

我学会了如何使用 R 对回归模型的不拟合进行 F 检验，其中 $H_0$：“回归模型中不存在不拟合”。

$F_{LOF} = \frac{MSLF}{MSPE} = \frac{SSLF(\text{model}) / df_1}{SSPE/df_2}$

其中 df_1 是 SSLF 的自由度（失拟平方和），df_2 是 SSPE 的自由度（纯误差的平方和）。

在 R 中，F 检验（例如对于具有 2 个预测变量的模型）可以用

anova(lm(y~x1+x2), lm(y~factor(x1)*factor(x2)))

示例输出：

Model 1: y ~ x1 + x2
Model 2: y ~ factor(x1) * factor(x2)
  Res.Df    RSS Df Sum of Sq      F Pr(>F)
1     19 18.122                           
2     11 12.456  8    5.6658 0.6254 0.7419

F 统计量：0.6254，p 值为 0.7419。

由于 p 值大于 0.05，我们不拒绝 $H_0$ 不缺乏拟合。因此模型是足够的。

我想知道的是为什么使用 2 个模型以及为什么使用命令factor(x1)*factor(x2)？显然，来自的 12.456Model 2神奇地是Model 1.

为什么？

score 2 · Accepted Answer

您正在测试具有交互作用的模型是否改进了模型拟合。

模型 1 对应于和的加性x1效应x2。

“检查”模型的复杂性是否足够的一种方法（在您的情况下，具有加性效应的多元回归是否对您的数据有意义）是将提议的模型与更灵活/更复杂的模型进行比较。

您的模型 2 具有这种更灵活模型的作用。首先，预测变量是分类的（通过使用factor(x1)and factor(x2)），然后它们之间的交互由构建factor(x1)*factor(x2)。交互模型包括作为特例的加法模型（即模型 1 嵌套在模型 2 中），并具有几个额外的参数以提供对数据的更好拟合。

您可以在的输出中看到两个模型之间参数数量的差异anova。模型 2 有 8 个额外参数可以更好地拟合，但由于 p 值不显着，您会得出结论，模型 2（具有基于额外 8 个参数的额外灵活性）实际上并不能显着更好地拟合数据。因此，与模型 2 相比，加法模型对数据提供了足够好的拟合。

请注意，上面制作 and 的类别（因子）的技巧仅在x1and的唯一值数量较低x2时才真正起作用。如果和是数字并且每个人都有自己的值，那么模型 2 就没有那么有用了，因为您最终会得到与观察结果相同数量的参数。在这些情况下，会使用更多的临时修改，例如对变量进行分箱。x1x2x1x2

r - 使用 R 进行失拟 F 检验

1 回答 1

Related

Reference