我知道 weka 中的 AUC/ROC 区域(http://weka.wikispaces.com/Area+under+the+curve)基于 e Mann Whitney 统计数据(http://en.wikipedia.org/wiki/Mann -惠特尼_U )
但我的疑问是,如果我有 10 个标记实例(Y 或 N,二进制目标属性),通过将算法(即 J48)应用于数据集,那么这 10 个实例上有 10 个预测标签。那我到底应该用什么来计算 AUC_Y、AUC_N 和 AUC_Avg?使用预测的排名标签 Y 和 N 还是实际标签(Y' 和 N')?或者我需要计算TP率和FP率?
谁能给我一个小例子,并指出我应该使用哪些数据来计算基于 Mann Whitney 统计方法的 AUC?提前致谢。
样本数据:
inst# actual predicted error PrY PrN
1 1:y 1:y *0.973 0.027
2 1:y 1:y *0.999 0.001
3 2:n 1:y + *0.568 0.432
4 2:n 2:n 0.382 *0.618
5 1:y 2:n + 0.421 *0.579
6 2:n 2:n 0.146 *0.854
7 1:y 1:y *1 0
8 1:y 1:y *0.999 0.001
9 2:n 2:n 0.11 *0.89
10 1:y 2:n + 0.377 *0.623