python - python中的简单t检验，具有差异的CI

Question

在 python 中执行 t 检验并包含差异的 CI 的最直接方法是什么？我看过各种帖子，但一切都不一样，当我自己尝试计算 CI 时，它似乎有点不对……这里：

import numpy as np
from scipy import stats

g1 = np.array([48.7107107,
36.8587287,
67.7129929,
39.5538852,
35.8622661])
g2 = np.array([62.4993857,
49.7434833,
67.7516511,
54.3585559,
71.0933957])

m1, m2 = np.mean(g1), np.mean(g2)
dof = (len(g1)-1) + (len(g2)-1)

MSE = (np.var(g1) + np.var(g2)) / 2

stderr_diffs = np.sqrt((2 * MSE)/len(g1))

tcl = stats.t.ppf([.975], dof)

lower_limit = (m1-m2) - (tcl) * (stderr_diffs)
upper_limit = (m1-m2) + (tcl) * (stderr_diffs)

print(lower_limit, upper_limit)

返回：

[-30.12845447] [-0.57070077]

但是，当我在 SPSS 中运行相同的测试时，虽然我的 t 和 p 值相同，但 CI 分别为 -31.87286、1.17371，在 R 中也是如此。我似乎找不到正确的方法这将不胜感激。

score 3 · Accepted Answer

计算自由度时减去 1，但计算方差时没有使用样本方差：

MSE = (np.var(g1) + np.var(g2)) / 2

应该

MSE = (np.var(g1, ddof=1) + np.var(g2, ddof=1)) / 2

这给了我

[-31.87286426] [ 1.17370902]

也就是说，我可能不会使用手动实现，而是使用 statsmodels 的CompareMeans：

In [105]: import statsmodels.stats.api as sms

In [106]: r = sms.CompareMeans(sms.DescrStatsW(g1), sms.DescrStatsW(g2))

In [107]: r.tconfint_diff()
Out[107]: (-31.872864255548553, 1.1737090155485568)

（实际上我们应该在这里使用 DataFrame，而不是 ndarray，但我很懒）。

请记住，尽管您将要考虑要对方差做出什么假设：

In [110]: r.tconfint_diff(usevar='pooled')
Out[110]: (-31.872864255548553, 1.1737090155485568)

In [111]: r.tconfint_diff(usevar='unequal')
Out[111]: (-32.28794665832114, 1.5887914183211436)

如果您的 g1 和 g2 具有代表性，则等方差的假设可能不是一个好的假设。

python - python中的简单t检验，具有差异的CI

1 回答 1

Related

Reference