我正在使用属性数据集,并且正在尝试处理 Land Square Feet Column 中的缺失值。数据集中有近 160000 条记录。其中 70000 条记录缺少 LandSquareFeet。我还有一个功能可以说明建筑物的类型。当建筑类型是 CONDO/Walkup 时,我在 LandSquareFeet 中有很多缺失值。在 LandsquareFeet 中有 47k 条公寓类型的记录,其中有 44k 条缺失值的记录。电梯/步行公寓的大部分物业也是如此。其他类别的建筑物在 LandSquareFeet 中缺少非常少的记录。我对如何处理缺少的 Landsquarefeet 功能感到困惑。如果我删除缺少 LandSquareFeet 的记录,我将丢失几乎一半的数据集。我不知道删除所有记录的功能是否明智。我做了一个 Little's MCAR 测试来确定它是否是 MCAR,但我得到的 p 值为 0.000,所以它不是 MCAR。是 MAR 吗?任何有关如何处理此问题的线索都会有所帮助。
问问题
129 次
1 回答
0
首先,如果您研究数据中的缺失可能是一个好主意,因为缺失解决的工具和方法通常根据这些特征进行分类
- 缺失模式:如果您只有 1 列缺失,那么您的缺失模式是 nonresponse 。否则它可能是单调多变量,一般形式,案例匹配等......该模式描述了缺失发生的分布
- 缺失机制:正如你已经提到的,我们可能有 MCAR、MNAR 和 MAR 缺失。我不知道您所说的MCAR 测试实际上是什么意思,基本上,如果缺失发生与其他特征相关,就会发生 MNAR 缺失,而 MAR 是指缺失发生与特征本身的掩码值相关时。根据您的描述,您的案例显然是MNAR(根据房屋类型预测)。但它也可能是 MAR,假设由于任意原因经常未观察到或未记录小值。
MCAR 缺失可以通过插补技术轻松解决,您可以搜索 MICE 算法或 MissForest,作为 MICE 的一个特例。
MNAR 和 MAR 缺失机制称为不可忽略机制。有诸如 IP 加权之类的技术来处理这种类型。最近还发表了一些论文,将缺失作为因果推理问题进行处理。
坏消息是在某些特殊情况下,理论上不可能修复 MAR 缺失。好消息是,有几个非常复杂的案例被研究和调查,希望你的案例不会比那些更复杂,因此你可以应用现有的方法。
我试图不是为了解决你的问题,而是给你一些重要的关键词,你可以通过这些关键词找到你的材料。如果你愿意花很多时间在这上面,你可以读一本关于这个主题的好书:
- RJ Little 和 DB Rubin,缺失数据的统计分析,第一卷。793. 约翰威利父子公司,2019 年。
我最后的想法:我有一种直觉,你可以通过所有可能的方法和方法的IP 加权来解决你的问题。查一下。
于 2020-06-08T11:57:14.407 回答