2

我正在使用miceinR来估算随机丢失的数据。我在尝试解释NAs数据集中的条件或结构化时遇到了问题。

一个简单的数据集来说明问题:

TestData <- data.frame(Condition= c(1,1,1,1,2,NA,2,2), 
Dependent1=c(1,NA,2,3,NA,NA,NA,NA),
Dependent2=c(1,12,44,1,NA,NA,NA,NA),
Dependent3=c(NA,2,3,5,NA,NA,NA,NA), 
UnaffiliatedQ=c(1,NA,3,2,27,NA,32,35))

TestData$Condition <- factor(TestData$Condition,
                         levels = c(1,2),
                         labels = c("Yes","No"))

在这个例子中,变量Condition是一个看门人问题,它决定了受访者是否需要填写接下来的三个问题Dependent#。如果受访者回答“否”并且他/她没有看到接下来的三个问题,那么它们将被标记为NAs - 尽管从技术上讲并没有丢失。

在这种情况下我能做什么?如果我将变量NA中的值与、和中的值一起估算,我将如何确保我不会得到没有意义的值?ConditionDependent1Dependent2Dependent3Dependent#

我已经想到了可能的解决方案,但我认为没有一个是有效的或一个好主意,例如,创建一个结构化的缺失值,比如-999根据条件答案对数据框进行子集化。

在阅读mices 作者的文档和论文时,我没有看到任何mice关于这种情况的论据。另一种选择是,我只是一直在使用多重插补的兔子洞,这不是正确使用它。

4

0 回答 0