使用插入符号构建随机森林模型时遇到问题。我有一个大约 46k 行和 10 列的数据集(其中之一是优化目标)。从这个数据集中,我试图比较不同的分类器。我做了以下事情:
ctrl = trainControl(method="boot"
,classProbs=TRUE
,summaryFunction=twoClassSummary )
#GLM Model:
model.glm = train(x=d[,2:10]
,y=d$CONV_BT, method='glm'
,trControl=ctrl, metric="ROC"
,family="binomial")
#Random Forest Model:
model.rf = train(x=d[,2:10]
,y=d$CONV_BT, method='rf'
,trControl=ctrl, metric="ROC")
#Naive Bayes Model:
model.nb = train(x=d[,2:10]
,y=d$CONV_BT, method='nb'
,trControl=ctrl, metric="ROC" )
然后,model.glm 和 model.nb 看起来都不错。我可以查看 25 个引导复制,每个案例的 ROC 约为 0.7。但是,model.rf 似乎有问题,因为报告的 ROC 分数都在 0.3 左右。这向我表明,某些东西的指定不正确,因为我可以将我的预测从 rf 模型从 p 切换到 1-p,然后我的 ROC 将是 0.7,对吗?
很抱歉我不能提供数据(因为上传的数据很大而且是专有的)。另一个奇怪的是,当我模拟数据时,我不再有这个问题。知道这可能是什么吗???谢谢你的帮助!