r - randomForest 中不平衡数据的样本大小的权重响应

问问题 2014-03-04T20:07:26.197

847 次

2

我是机器学习和 R 的新手。

我尝试使用 R 拟合一些模型，包括树、提升树、随机森林、ada 提升、支持向量机和逻辑回归。

就我而言，训练数据中发生罕见事件（第 1 类）的概率为 0.0075。

在树和增强树的训练中，我在模型中添加了一个权重参数，即权重类 0 和 1，类 1 和 sqrt(1/0.0075)。这是正确的方法吗？

我对随机森林有一些问题。我搜索了使用 sampsize 来处理这样的不平衡数据。

但是，我不太确定如何给每个班级适当的权重。

我看了这里，有一个降低不平衡率的建议。我该如何选择合适的？

另外，我不知道如何在 ada boosting 和逻辑回归中包含权重。

0 回答 0