21

帮助页面randomforest::randomforest()说:

“classwt - 类的先验。不需要加起来。忽略回归。”

当您有大量不平衡数据时,可以设置classwt参数帮助,即。类的先验差异很大?

classwt在具有 3 个类且先验向量等于 (p1,p2,p3) 且在测试集中先验为 (q1,q2,q3) 的数据集上训练模型时,我应该如何设置?

4

1 回答 1

23

当您有大量不平衡数据时,设置 classwt 参数是否有帮助 - 类的先验差异很大?

是的,设置 classwt 的值对于不平衡的数据集可能很有​​用。我同意 joran 的观点,即这些值在采样训练数据的概率中进行了转换(根据 Breiman 在其原始文章中的论点)。

在具有 3 个类的训练数据集中,您的先验向量等于 (p1,p2,p3) 并且在测试集中的先验是 (q1,q2,q3),如何设置 classwt?

对于培训,您可以简单地指定

rf <- randomForest(x=x, y=y, classwt=c(p1,p2,p3))

对于测试集,不能使用先验:1)predictrandomForest包的方法中没有这样的选项;2)权重只对模型的训练有意义,对预测没有意义。

于 2012-04-12T05:24:31.980 回答