我正在使用mice
inR
来估算随机丢失的数据。我在尝试解释NAs
数据集中的条件或结构化时遇到了问题。
一个简单的数据集来说明问题:
TestData <- data.frame(Condition= c(1,1,1,1,2,NA,2,2),
Dependent1=c(1,NA,2,3,NA,NA,NA,NA),
Dependent2=c(1,12,44,1,NA,NA,NA,NA),
Dependent3=c(NA,2,3,5,NA,NA,NA,NA),
UnaffiliatedQ=c(1,NA,3,2,27,NA,32,35))
TestData$Condition <- factor(TestData$Condition,
levels = c(1,2),
labels = c("Yes","No"))
在这个例子中,变量Condition
是一个看门人问题,它决定了受访者是否需要填写接下来的三个问题Dependent#
。如果受访者回答“否”并且他/她没有看到接下来的三个问题,那么它们将被标记为NA
s - 尽管从技术上讲并没有丢失。
在这种情况下我能做什么?如果我将变量NA
中的值与、和中的值一起估算,我将如何确保我不会得到没有意义的值?Condition
Dependent1
Dependent2
Dependent3
Dependent#
我已经想到了可能的解决方案,但我认为没有一个是有效的或一个好主意,例如,创建一个结构化的缺失值,比如-999
根据条件答案对数据框进行子集化。
在阅读mice
s 作者的文档和论文时,我没有看到任何mice
关于这种情况的论据。另一种选择是,我只是一直在使用多重插补的兔子洞,这不是正确使用它。