0

我们正在使用 ESS 数据集,但不确定如何处理 SAS Enterprise Guide 中的缺失值问题。我们的因变量是“主观幸福感”,旨在包括大量控制变量——因此,我们有一个数据集包含大量缺失值的情况。

我们不想使用“列表删除”。相反,我们希望根据被访者的回答以不同的方式处理不同的缺失:“不回答”、“不适用”、“拒绝”、“不知道”。例如,我们计划对不适用进行成对删除,而我们可能希望使用其他一些回答的平均值 - 取决于问题(假设受访者的回答提供有关 MCAR、MAR、 NMAR)。

我们的主要问题是:

  • 目前,我们缺失的变量在数据集中以不同的方式标记(99、77、999、88 等),我们是否应该在继续使用 SAS Enterprise Guide 之前在 Excel 中替换这些值?如果是 - 我们应该如何最好地替换它们,因为它们应该以不同的方式处理?
  • 我们如何告诉 SAS Enterprise Guide 以不同的方式处理不同的缺失?
  • 如果我们使用虚拟变量来标记拒绝,例如收入,我们如何将这些包含在最终回归中?

我们已尝试阅读此内容,但有些困惑,因此我们非常感谢您的帮助:)

4

1 回答 1

1

在技​​术说明上,SAS 提供了特殊的缺失值:.a .b .c 等(不区分大小写)。替换 SAS 中的数值,例如99 =.a 77 = .b 决策树将能够将这些作为单独的值处理。

为了在回归模型中保留缺失观察的信息,您必须做出某种权衡(找到对您的问题危害最小的解决方案)。

  • 一种经典的解决方案是创建虚拟变量并用平均值替换缺失值。在模型中包括虚拟变量和原始变量。可能的问题:系数有偏差、多重共线性、类别/变量太多。

  • 另一种方法是将您的变量分类。仅按值(例如十分位数)进行操作,您可能会遭受信息丢失。按理论来做,你可能会遭受确认偏差。

  • 更高级的方法是计算自变量的信息值(http://support.sas.com/resources/papers/proceedings13/095-2013.pdf)。从而替换所有值,包括缺失值。当然,这将再次导致偏见和信息丢失。但至少可能是识别有用/无用缺失值的好步骤。

于 2016-03-24T13:33:59.687 回答