0

在我的数据集中,我有 2 个特征不仅相互关联,而且只有在彼此存在的情况下才有意义。例如,一个是尝试任务的次数,另一个是成功的次数。

如前所述,似乎是我单独采取了两个中的一个并没有提供任何信息。我是否应该制定一个方案,如果我在我的射频树中选择其中一个,我会自动包含另一个?

如果是这样,是否可以使用 scikit-learn 的 RF 类来做到这一点?

谢谢!

4

1 回答 1

1

为成功率引入一个新特性,即successes / attempts. 现在这个可能重要的概念对分类器/回归器更有用。随机森林算法对冗余特征具有鲁棒性,所以你应该尽量保留原始特征,它可能会添加预测信息。查看经过训练的森林的特征重要性分数以了解选择了哪些特征。

于 2018-06-24T10:34:01.087 回答