我正在使用 weka 的评估类来计算随机森林中每棵生成树的平均绝对误差。解释说:“指的是数字类的预测值的误差,以及名义类的预测概率分布的误差。”
有人可以用简单的话或可能举个例子来解释吗?
我正在使用 weka 的评估类来计算随机森林中每棵生成树的平均绝对误差。解释说:“指的是数字类的预测值的误差,以及名义类的预测概率分布的误差。”
有人可以用简单的话或可能举个例子来解释吗?
平均绝对误差表示您的预测平均与测试数据的实际值有多接近。
对于数字类,这很容易想到。
例子:
真值:{0, 1, 4}
预测值:{1, 3, 1}
差值:{-1, -2, 3}(从真值中减去预测值)
绝对差值:{1, 2, 3}
平均绝对差值: (1+2+3)/3 = 2
对于名义类别,预测不再是单个值,而是属于不同可能类别的实例的概率分布。提供的示例将有两个类。
例子:
符号:[0.5, 0.5] 表示一个实例有 50% 的机会属于 Y 类,50% 的机会属于 X 类。
真实分布:{ [0,1] , [1,0] }
预测分布:{ [0.25, 0.75], [1, 0] }
差异:{ [-0.25, 0.25], [0, 0] }
绝对差异: { (0.25 + 0.25)/2, (0 + 0)/2 } = {0.25, 0}
平均绝对差:(0.25 + 0)/2 = 0.125
您可以通过访问 Weka 评估类的源代码来仔细检查我的解释。
另外作为旁注,我相信 Weka 报告的随机森林的平均绝对差异是针对整个森林的,而不是针对单个树木的。