0

在 Weka 中有一个名为“ReplaceMissingValues”的过滤器,它允许使用每个属性的平均值替换数据集中的所有缺失值。我想使用属于某个类的值的平均值来替换某个属性的缺失值。例如,在二进制数据集中,我认为使用仅使用属于正类的记录计算的平均值来替换属于正类的记录中属性的缺失值更正确。那么怎么可能实现呢?我们如何仅替换属于某个类的记录的值?

4

1 回答 1

1

如果您想通过获取从特定 A 类的训练实例计算的平均值来替换 A 类的缺失值,那么您就是在“偏向”您的数据集。为避免偏差(最终会使您的训练模型过拟合),明智的做法是使用默认的“替换缺失值”功能——即考虑所有训练实例的均值和模式,而不仅仅是特定类。

于 2012-04-23T00:08:14.923 回答