2

我学会了如何使用 R 对回归模型的不拟合进行 F 检验,其中 $H_0$:“回归模型中不存在不拟合”。

$$F_{LOF} = \frac{MSLF}{MSPE} = \frac{SSLF(\text{model}) / df_1}{SSPE/df_2}$$

其中 df_1 是 SSLF 的自由度(失拟平方和),df_2 是 SSPE 的自由度(纯误差的平方和)。

在 R 中,F 检验(例如对于具有 2 个预测变量的模型)可以用

anova(lm(y~x1+x2), lm(y~factor(x1)*factor(x2)))

示例输出:

Model 1: y ~ x1 + x2
Model 2: y ~ factor(x1) * factor(x2)
  Res.Df    RSS Df Sum of Sq      F Pr(>F)
1     19 18.122                           
2     11 12.456  8    5.6658 0.6254 0.7419

F 统计量:0.6254,p 值为 0.7419。

由于 p 值大于 0.05,我们不拒绝 $H_0$ 不缺乏拟合。因此模型是足够的。

我想知道的是为什么使用 2 个模型以及为什么使用命令factor(x1)*factor(x2)?显然,来自 的 12.456Model 2神奇Model 1.

为什么?

4

1 回答 1

2

您正在测试具有交互作用的模型是否改进了模型拟合。

模型 1 对应于 和 的加性x1效应x2

“检查”模型的复杂性是否足够的一种方法(在您的情况下,具有加性效应的多元回归是否对您的数据有意义)是将提议的模型与更灵活/更复杂的模型进行比较。

您的模型 2 具有这种更灵活模型的作用。首先,预测变量是分类的(通过使用factor(x1)and factor(x2)),然后它们之间的交互由 构建factor(x1)*factor(x2)。交互模型包括作为特例的加法模型(即模型 1 嵌套在模型 2 中),并具有几个额外的参数以提供对数据的更好拟合。

您可以在 的输出中看到两个模型之间参数数量的差异anova。模型 2 有 8 个额外参数可以更好地拟合,但由于 p 值不显着,您会得出结论,模型 2(具有基于额外 8 个参数的额外灵活性)实际上并不能显着更好地拟合数据。因此,与模型 2 相比,加法模型对数据提供了足够好的拟合。

请注意,上面制作 and 的类别(因子)的技巧仅在x1and的唯一值数量较低x2时才真正起作用。如果和是数字并且每个人都有自己的值,那么模型 2 就没有那么有用了,因为您最终会得到与观察结果相同数量的参数。在这些情况下,会使用更多的临时修改,例如对变量进行分箱。x1x2x1x2

于 2017-07-28T09:14:21.337 回答