关于这个链接Predicted probabilities in R ranger package,我有一个问题。
想象一下,我有一个混合数据框 df(由因子和数值变量组成),我想使用 ranger 进行分类。我将此数据框拆分为测试集,并将训练集拆分为 Train_Set 和 Test_Set。BiClass 是我的预测因子变量,包含 0 和 1(2 个级别)
我想使用 ranger 使用以下命令计算类概率并将其附加到数据框:
Biclass.ranger <- ranger(BiClass ~ ., ,data=Train_Set, num.trees = 500, importance="impurity", save.memory = TRUE, probability=TRUE)
probabilities <- as.data.frame(predict(Biclass.ranger, data = Test_Set, num.trees = 200, type='response', verbose = TRUE)$predictions)
数据框概率是由 2 列(0 和 1)组成的数据框,其行数等于 Test_Set 中的行数。
这是否意味着,如果我附加或附加此数据框,即作为最后两列的 Test_Set 的概率,它显示每行为 0 或 1 的概率?我的理解正确吗?
我的第二个问题,当我尝试计算混淆矩阵时
pred = predict(Biclass.ranger, data=Test_Set, num.trees = 500, type='response', verbose = TRUE)
table(Test_Set$BiClass, pred$predictions)
我收到以下错误:表中的错误(Test_Set$BiClass,pred$predictions):所有参数必须具有相同的长度
我究竟做错了什么?