19

我为欺诈领域的文档二进制分类准备了几个模型。我计算了所有模型的对数损失。我认为它本质上是在测量预测的置信度,并且 log loss 应该在 [0-1] 的范围内。我相信当结果 - 确定类别不足以用于评估目的时,这是分类中的一项重要措施。因此,如果两个模型的 acc、recall 和precision 非常接近,但一个模型的对数损失函数较低,则应该选择它,因为在决策过程中没有其他参数/​​指标(例如时间、成本)。

决策树的 log loss 为 1.57,对于所有其他模型,它在 0-1 范围内。我如何解释这个分数?

4

1 回答 1

49

重要的是要记住日志损失没有上限。对数损失存在于 [0, ∞) 范围内

Kaggle中,我们可以找到 log loss 的公式。

日志丢失

其中y ij对于正确的类别为 1,对于其他类别为 0,而p ij是分配给该类别的概率。

如果我们看一下平均 log loss 超过 1 的情况,那么当log ( p ij ) < -1 时,i是真正的类。这意味着该给定类的预测概率将小于exp (-1) 或大约 0.368。因此,如果您的模型对实际类别的概率估计值低于 36%,则可以预期会看到大于 1 的对数损失。

我们也可以通过绘制给定各种概率估计的对数损失来看到这一点。

对数损失曲线

于 2016-01-26T13:41:36.953 回答