帮助页面randomforest::randomforest()
说:
“classwt - 类的先验。不需要加起来。忽略回归。”
当您有大量不平衡数据时,可以设置classwt
参数帮助,即。类的先验差异很大?
classwt
在具有 3 个类且先验向量等于 (p1,p2,p3) 且在测试集中先验为 (q1,q2,q3) 的数据集上训练模型时,我应该如何设置?
帮助页面randomforest::randomforest()
说:
“classwt - 类的先验。不需要加起来。忽略回归。”
当您有大量不平衡数据时,可以设置classwt
参数帮助,即。类的先验差异很大?
classwt
在具有 3 个类且先验向量等于 (p1,p2,p3) 且在测试集中先验为 (q1,q2,q3) 的数据集上训练模型时,我应该如何设置?
当您有大量不平衡数据时,设置 classwt 参数是否有帮助 - 类的先验差异很大?
是的,设置 classwt 的值对于不平衡的数据集可能很有用。我同意 joran 的观点,即这些值在采样训练数据的概率中进行了转换(根据 Breiman 在其原始文章中的论点)。
在具有 3 个类的训练数据集中,您的先验向量等于 (p1,p2,p3) 并且在测试集中的先验是 (q1,q2,q3),如何设置 classwt?
对于培训,您可以简单地指定
rf <- randomForest(x=x, y=y, classwt=c(p1,p2,p3))
对于测试集,不能使用先验:1)predict
randomForest包的方法中没有这样的选项;2)权重只对模型的训练有意义,对预测没有意义。