我是机器学习和 R 的新手。
我尝试使用 R 拟合一些模型,包括树、提升树、随机森林、ada 提升、支持向量机和逻辑回归。
就我而言,训练数据中发生罕见事件(第 1 类)的概率为 0.0075。
在树和增强树的训练中,我在模型中添加了一个权重参数,即权重类 0 和 1,类 1 和 sqrt(1/0.0075)。这是正确的方法吗?
我对随机森林有一些问题。我搜索了使用 sampsize 来处理这样的不平衡数据。
但是,我不太确定如何给每个班级适当的权重。
我看了这里,有一个降低不平衡率的建议。我该如何选择合适的?
另外,我不知道如何在 ada boosting 和逻辑回归中包含权重。