我在 R 平台中使用 randomForest 包来构建二进制分类器。大约有 30,000 行,其中 14,000 行在正类中,16,000 行在负类中。我有 15 个已知对分类很重要的变量。
我有一些额外的变量(大约 5 个)缺少信息。这些变量的值为 1 或 0。1 表示存在某物,而 0 表示不知道它是否存在。众所周知,如果有 1,这些变量将是分类最重要的变量(增加分类的可靠性,并且样本更有可能属于正类),但如果有 0,则无用。而且,只有 5% 的行的值为 1。因此,一个变量仅对 5% 的情况有用。这 5 个变量是相互独立的,所以我希望这些变量对我拥有的 15-25% 的数据非常有用。
有没有办法利用可用数据但忽略单个列中存在的缺失/未知数据?您的想法和建议将不胜感激。实现不必特定于随机森林和 R 平台。如果使用其他机器学习技术或在其他平台上可以做到这一点,那么它们也是最受欢迎的。感谢您的时间。问候