1

我一直在自学 Weka,并学会了如何构建模型并从中获得预测(使用 CLI 进行预测)。

当我对来自先前构建的模型的数据集运行预测时,我得到一个列,该列是“预测”,也称为每个预测实例的预测置信度。

我知道百分比置信度意味着什么,但我的所有预测不应该是我的 Weka 模型的准确性吗?

又名,如果我有一个准确率为 90% 的 J48 决策树分类器,那么使用此模型的每个分类实例不应该是 90% 的预测置信度吗?

任何人都知道这个百分比置信度是如何计算的,或者在告诉别人我的模型时我应该如何阅读错误预测和模型准确性?谢谢

4

1 回答 1

2

基本上,当决策树在数据集上进行训练时,您通常希望(或由于缺少特征必须)在它过度拟合每个训练实例之前停止它。发生这种情况时,您将在树的叶节点处有几个训练样本。很多时候,训练标签在那个时候仍然是混合的(不是所有的正类,也不是所有的负类。)

置信度是在树下到该训练实例的叶子时训练标签的一致性程度的某种度量。

编辑:请注意,这也用于以干净和公正的方式处理缺失的特征(属性)。

有关此的简要定义,请参见此处。

另请查看 Quinlan 在决策树方面的一些工作。特别是他在 C4.5 上的工作

另外:“我知道百分比置信度意味着什么,但我的所有预测不应该是我的 Weka 模型的准确性吗?”

不,这不是真的,一些训练样本比其他样本更容易分类,这些分数反映了这一点。

于 2012-06-18T14:08:33.613 回答