我正在对不平衡数据进行二元分类任务。
由于在这种情况下准确性没有那么大的意义。我使用 Scikit-Learn 计算 Precision-Recall 曲线和 ROC 曲线以评估模型性能。
但是我发现当我使用带有大量估计器的随机森林时,两条曲线都是一条水平线,当我使用 SGD 分类器来拟合它时也会发生这种情况。
ROC图表如下:
以及 Precision-Recall 图表:
由于随机森林的行为是随机的,我不会在每次运行时都得到一条水平线,有时我也会得到一条规则的 ROC 和 PR 曲线。但水平线更为常见。
这是正常的吗?还是我在代码中犯了一些错误?
这是我的代码片段:
classifier.fit(X_train, Y_train)
try:
scores = classifier.decision_function(X_test)
except:
scores = classifier.predict_proba(X_test)[:,1]
precision, recall, _ = precision_recall_curve(Y_test, scores, pos_label=1)
average_precision = average_precision_score(Y_test, scores)
plt.plot(recall, precision, label='area = %0.2f' % average_precision, color="green")
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('Recall')
plt.ylabel('Precision')
plt.title('Precision Recall Curve')
plt.legend(loc="lower right")
plt.show()