3

我有一个线性模型,我试图拟合在内生变量中有大量异常值的数据,但在外生空间中却没有。我研究过基于 M 估计器的 RLM 在这种情况下很好。

当我通过以下方式将 RLM 拟合到我的数据时:

import numpy as np
import statsmodels.formula.api as smf
import statsmodels as sm

modelspec = ('cost ~ np.log(units) + np.log(units):item + item') #where item is a categorical variable
results = smf.rlm(modelspec, data = dataset, M = sm.robust.norms.TukeyBiweight()).fit()
print results.summary()

汇总结果显示 az 统计量,并且似乎显着性系数检验基于此而不是统计量。但是,以下 R 手册(http://www.dst.unive.it/rsr/BelVenTutorial.pdf)显示了 t 统计在 pg 上的使用。19-21

两个问题:

  1. 有人可以从概念上向我解释为什么 statsmodels 使用 z 检验而不是 t 检验吗?

  2. 所有项和交互在结果中都非常显着 (|z| > 4)。在大多数情况下,每个项目都有 40 个或更多的观察值。有些项目有 21-25 个观察值。是否有理由相信 RLM 在小样本环境中无效?它产生的线必须是重新加权异常值后的最佳拟合线,但 z 检验对这种大小的样本有效(即,是否有理由相信 smf.rlm() 产生的置信区间不会产生 95%概率覆盖?我知道对于 t 检验,这可能是一个问题......)?

谢谢!

4

1 回答 1

0

我几乎只有一个一般性的答案,我从来没有读过任何关于 M 估计器的小样本蒙特卡洛研究。

到 1。

在许多模型中,如 M 估计器、RLM 或广义线性模型、GLM,我们只有渐近的结果,除了一些特殊情况。渐近结果提供了估计量呈正态分布的条件。鉴于此,对于带有联合假设的 Wald 检验,statsmodels 默认对线性回归模型、OLS 和类似模型以及卡方分布以外的所有模型使用正态分布而不是 F 分布。

There is some evidence that in many cases using the t or F distribution with appropriate choice of degrees of freedom provides a better small sample approximation to the distribution of the test statistic. 据我所知,这依赖于蒙特卡洛结果,并没有直接被理论证明。

在下一个版本和当前开发版本中,statsmodels 用户可以选择使用 t 和 F 分布作为结果,而不是正态和卡方分布。默认值与现在保持不变。

还有其他一些情况,不清楚是否应该使用 t 分布,以及应该使用哪个小样本自由度。在许多情况下,statsmodels 试图效仿 STATA,例如在 OLS 之后的集群稳健标准错误中。另一个后果是,有时作为不同模型特例的等效模型在 Stata 和 statsmodels 中对分布使用不同的默认假设。

我最近阅读了 M 估计器的 SAS 文档,SAS 使用卡方分布,即正态假设,用于参数估计的显着性和置信区间。

到 2。

(见第一句话)

我认为与线性模型相同也适用于此。如果数据高度非正态,则测试统计数据在小样本中的覆盖率可能不正确。这也可能是一些稳健的三明治协方差估计器的情况。另一方面,如果我们不使用异方差性或相关性稳健协方差估计量,那么测试也可能有很大的偏差。

对于像 M-estimators、RLM 这样的稳健估计方法,有效样本量还取决于内点数或分配给观测值的权重,而不仅仅是观测值的总数。

对于您的情况,我认为 z 值和样本量足够大,例如,使用 t 分布不会使它们变得不那么重要。将 M 估计量与不同的范数和尺度估计值进行比较,将进一步检查对异常值假设的稳健性以及稳健估计量的选择。另一个交叉检查:具有丢弃异常值的 OLS(RLM 估计中权重较小的观察值)是否给出了类似的答案。

最后作为一般警告:关于健壮方法的参考文献经常警告我们不应该盲目使用(异常值)健壮方法。使用稳健的方法估计基于“内点”的关系。但是我们丢弃或降低异常值的权重是否合理?或者,我们是否缺少非线性、缺少变量、混合分布或不同的状态?

于 2014-02-04T00:30:06.413 回答