我对数据挖掘领域比较陌生,并且一直在尝试使用 Weka。
我有一个数据集,其中包含近 8000 条与客户和他们购买的物品相关的记录。该数据集中 58% 的“性别”属性缺失值。
我想根据我拥有的其他数据找到缺失的性别值。
我首先认为我可以使用 Weka 中的分类器算法使用训练集来构建模型来做到这一点。根据我在网上看到的示例,我使用 Weka 中几乎所有可用的算法进行了尝试,使用的训练集包含 60-80% 的没有缺失值的数据。这给了我比我想要的更低的准确率(80-86%,取决于所使用的算法)
我做对了吗?有没有办法提高这种准确性?我尝试使用不同的属性,对数据进行不同的预处理等。
我还尝试在完整数据集上使用 ReplaceMissingValues 过滤器,以查看如何处理缺失值。但是,它只是将所有缺失的值更改为“女性”,显然情况并非如此。所以我想知道我是否需要在我的情况下使用这个过滤器。