我使用 MatchIt 函数得出一个 1:4 比例的已处理:未处理数据集,试图达到相似的平均年龄和性别频率。
我有一个小的治疗组(n = 44)和一个更大的对照组(n = 980)。为了减少对照组的数量并排除年龄和性别作为混杂因素,我尝试使用 MatchIt 函数创建一个 176 人的对照组,其平均年龄和性别平衡与治疗组相似。
m.out <- matchit(Treated ~ AGE + SEX, data = d,
method = "optimal",
ratio = 4)
输出总结如下:
Summary of balance for matched data:
Means Treated Means Control SD Control Mean Diff eQQ Med
distance 0.0602 0.0603 0.0250 -0.0001 0
AGE 57.5227 58.4034 7.9385 -0.8807 1
SEXF 0.4318 0.1477 0.3558 0.2841 0
SEXM 0.5682 0.8523 0.3558 -0.2841 0
年龄变量效果很好 - 它没有显着差异,但性别似乎有所不同(对照组为 85% 男性,治疗组为 57%),因此我对治疗后的性别数据进行了卡方检验。它在性别上表现出非常显着的差异:
chisq <- with(m.data, chisq.test(SEX, Treated))
data: SEX and Treated
X-squared = 15.758, df = 1, p-value = 7.199e-05
我如何解释这里的差异?我的 MatchIT 函数有问题(方法不正确?)还是它有效但我已将卡方应用于不正确的问题?