0

我正在尝试使用一些分类技术构建分类器“模型”。从 C4.5 技术开始,面临缺失值的问题:

如何处理数据集中存在的缺失值?

我应该留在“吗?” 在缺少的属性?

4

1 回答 1

0

有几种处理缺失值的方法:

  1. 获取缺失数据:如果可能,尝试获取缺失值。
  2. 丢弃缺失数据: 通过丢弃所有具有缺失值或特征的实例来减少可用于没有缺失值的数据集的数据。
  3. 插补:更好的策略是插补缺失值,即从数据的已知部分推断它们。一种常见的方法是使用缺失值所在的行或列的平均值、中位数或最频繁的值。建议使用多重插补。

这可能会有所帮助:http: //jmlr.csail.mit.edu/papers/volume8/saar-tsechansky07a/saar-tsechansky07a.pdf

于 2015-05-02T14:40:12.747 回答