我有一个线性模型,我试图拟合在内生变量中有大量异常值的数据,但在外生空间中却没有。我研究过基于 M 估计器的 RLM 在这种情况下很好。
当我通过以下方式将 RLM 拟合到我的数据时:
import numpy as np
import statsmodels.formula.api as smf
import statsmodels as sm
modelspec = ('cost ~ np.log(units) + np.log(units):item + item') #where item is a categorical variable
results = smf.rlm(modelspec, data = dataset, M = sm.robust.norms.TukeyBiweight()).fit()
print results.summary()
汇总结果显示 az 统计量,并且似乎显着性系数检验基于此而不是统计量。但是,以下 R 手册(http://www.dst.unive.it/rsr/BelVenTutorial.pdf)显示了 t 统计在 pg 上的使用。19-21
两个问题:
有人可以从概念上向我解释为什么 statsmodels 使用 z 检验而不是 t 检验吗?
所有项和交互在结果中都非常显着 (|z| > 4)。在大多数情况下,每个项目都有 40 个或更多的观察值。有些项目有 21-25 个观察值。是否有理由相信 RLM 在小样本环境中无效?它产生的线必须是重新加权异常值后的最佳拟合线,但 z 检验对这种大小的样本有效(即,是否有理由相信 smf.rlm() 产生的置信区间不会产生 95%概率覆盖?我知道对于 t 检验,这可能是一个问题......)?
谢谢!