0

我有一个大数据集(大约 10000 行),我正在尝试运行一个分类随机森林,我打算用它来进行预测。我的数据完全不平衡。对于结果变量,我试图预测大约 89% 的行标记为“1”,其余为“0”。我正在使用的代码如下:

RFTry <-randomForest(as.factor(OutcomeVariable)~., data=df, importance=TRUE, 
ntree=200, samplesize=c(500,500))

我不确定我应该使用什么样本大小。我应该为每个结果变量采样相同数量的行还是不同?我应该采集多少样本?下面显示了每个变量的数量表。

> table(df$OutcomeVariable)

    0     1 
10228  1234 

谢谢!

4

0 回答 0