r - 使用具有聚类数据的小鼠进行插补

Question

所以我使用mice包来估算丢失的数据。我是插补的新手，所以我已经到了一定程度，但遇到了陡峭的学习曲线。举个玩具例子：

library(mice)
# Using nhanes dataset as example
df1 <- mice(nhanes, m=10)

如您所见，我主要使用默认设置对 df1 进行了 10 次估算——我很乐意在回归模型、汇总结果等中使用此结果。但是在我的现实生活数据中，我有来自不同国家的调查数据。因此，缺失的程度因国家而异，特定变量的值也不同——即年龄、教育水平等。因此，我想估算缺失，允许按国家/地区进行聚类。所以我将创建一个没有缺失的分组变量（当然在这个玩具示例中，与其他变量的相关性缺失，但在我的真实数据中它们存在）

# Create a grouping variable
nhanes$country <- sample(c("A", "B"), size=nrow(nhanes), replace=TRUE)

那么我如何判断mice()这个变量与其他变量不同 - 即它是多级数据集中的一个级别？

score 6 · Accepted Answer

如果您将集群视为“混合效应”模型，那么您应该使用mice为集群数据提供的方法。这些方法可以在手册中找到，通常前缀为2l.something.

聚类数据的各种方法在某种程度上受到限制mice，但我可以建议2l.pan在较低级别的单元和2l.only.norm聚类级别使用缺失数据。

作为混合效应模型的替代方案，您可以考虑使用虚拟指标来表示集群结构（即，每个集群一个虚拟变量）。当您从混合效应模型的角度考虑集群时，这种方法并不理想。因此，如果您想进行混合效应分析，请尽可能坚持使用混合效应模型。

下面，我展示了这两种策略的示例。

准备：

library(mice)
data(nhanes)

set.seed(123)
nhanes <- within(nhanes,{
  country <- factor(sample(LETTERS[1:10], size=nrow(nhanes), replace=TRUE))
  countryID <- as.numeric(country)
})

案例 1：使用混合效应模型进行插补

本节使用2l.pan缺失数据来估算三个变量。请注意，我通过在预测矩阵中clusterID指定 a 作为集群变量。-2对于所有其他变量，我只分配固定效应 ( 1)。

# "empty" imputation as a template
imp0 <- mice(nhanes, maxit=0)
pred1 <- imp0$predictorMatrix
meth1 <- imp0$method

# set imputation procedures
meth1[c("bmi","hyp","chl")] <- "2l.pan"

# set predictor Matrix (mixed-effects models with random intercept
# for countryID and fixed effects otherwise)
pred1[,"country"] <- 0     # don't use country factor
pred1[,"countryID"] <- -2  # use countryID as cluster variable
pred1["bmi", c("age","hyp","chl")] <- c(1,1,1)  # fixed effects (bmi)
pred1["hyp", c("age","bmi","chl")] <- c(1,1,1)  # fixed effects (hyp)
pred1["chl", c("age","bmi","hyp")] <- c(1,1,1)  # fixed effects (chl)

# impute
imp1 <- mice(nhanes, maxit=20, m=10, predictorMatrix=pred1, method=meth1)

案例 2：使用集群的虚拟指标 (DI) 进行插补

本节pmm用于插补，集群结构以“ad hoc”方式表示。也就是说，聚类不是由随机效应表示，而是由固定效应表示。这可能会夸大缺少数据的变量的集群级可变性，因此请确保您知道在使用它时会做什么。

# create dummy indicator variables
DIs <- with(nhanes, contrasts(country)[country,])
colnames(DIs) <- paste0("country",colnames(DIs))
nhanes <- cbind(nhanes,DIs)


# "empty" imputation as a template
imp0 <- mice(nhanes, maxit=0)
pred2 <- imp0$predictorMatrix
meth2 <- imp0$method

# set imputation procedures
meth2[c("bmi","hyp","chl")] <- "pmm"

# for countryID and fixed effects otherwise)
pred2[,"country"] <- 0     # don't use country factor
pred2[,"countryID"] <- 0   # don't use countryID
pred2[,colnames(DIs)] <- 1 # use dummy indicators
pred2["bmi", c("age","hyp","chl")] <- c(1,1,1)  # fixed effects (bmi)
pred2["hyp", c("age","bmi","chl")] <- c(1,1,1)  # fixed effects (hyp)
pred2["chl", c("age","bmi","hyp")] <- c(1,1,1)  # fixed effects (chl)

# impute
imp2 <- mice(nhanes, maxit=20, m=10, predictorMatrix=pred2, method=meth2)

如果您想了解如何看待这些方法，请查看其中一两篇论文。

score 1 · Accepted Answer

您必须设置一个 predictorMatrix 来告诉老鼠使用哪个变量来估算另一个变量。这样做的一种快速方法是使用predictorM<-quickpred(nhanes)

然后，如果它是正常变量，则将矩阵中的 1 更改为 2，如果是不同国家/地区的二级变量，则将其更改为 -2，并将其提交给 mouse 命令predictorMatrix =predictorM。在方法命令中，您现在必须将方法设置为2l.norm是度量变量还是2l.binom二进制变量。对于后者，您需要 Sabine Zinn ( https://www.neps-data.de/Portals/0/Working%20Papers/WP_XXXI.pdf )编写的函数。不幸的是，我不知道世界上是否有估算二级计数数据的方法。

请注意，估算多级数据集会大大减慢该过程。根据我的经验，像 PMM 或 Baboon 包中的重采样方法可以很好地保持数据的层次结构，并且使用起来更快。

r - 使用具有聚类数据的小鼠进行插补

2 回答 2

Related

Reference