ROC曲线:
- x 轴:误报率 FPR = FP /(FP + TN) = FP / N
- y 轴:真阳性率 TPR = 召回 = TP /(TP + FN) = TP / P
精确召回曲线:
- x 轴:召回率 = TP / (TP + FN) = TP / P = TPR
- y 轴:精度 = TP / (TP + FP) = TP / PP
您的癌症检测示例是一个二元分类问题。你的预测是基于概率的。(不)患癌症的概率。
通常,如果 P(A) > 0.5(您的阈值),则实例将被分类为 A。对于此值,您将获得基于 True Positives、True Negatives、False Positives 和 False Negatives 的 Recall-Precision 对。
现在,当您更改 0.5 阈值时,您会得到不同的结果(不同的对)。如果 P(A) > 0.3,您已经可以将患者归类为“患有癌症”。这将降低精确度并增加召回率。你宁愿告诉某人他有癌症,即使他没有,以确保癌症患者一定能得到他们需要的治疗。这代表了 TPR 和 FPR 或 Precision 和 Recall 或 Sensitivity 和 Speciality 之间的直观权衡。
让我们添加这些术语,因为它们在生物统计学中更常见。
- 灵敏度 = TP / P = 召回 = TPR
- 特异性 = TN / N = (1 – FPR)
ROC 曲线和 Precision-Recall 曲线可视化分类器的所有这些可能阈值。
如果仅靠准确性不是合适的质量衡量标准,您应该考虑这些指标。将所有患者分类为“没有癌症”将为您提供最高的准确度,但您的 ROC 和 Precision-Recall 曲线的值将是 1 和 0。