2

假设我们有三个类:A、B 和 C,我们使用标准 MaxEnt 分类器对文档“d”进行分类,并得出以下概率:

P(d, A) = 0.50
P(d, B) = 0.25
P(d, C) = 0.25

在某种程度上,我觉得这与这组概率非常不同:

P(d, A) = 0.50
P(d, B) = 0.49
P(d, C) = 0.01

有没有办法区分这两者之间的差异?

4

2 回答 2

3

您面临的问题通常被称为分类器之间的“共识”。由于多标签 MaxEnt 可以被视为 N 个独立的分类器,因此您可以将其视为一组为不同类别“投票”的模型。

现在,计算这种“共识”的措施有很多,包括:

  • 边际的“幼稚”计算 - “获胜”类概率与第二个概率之间的差异 - 边际越大 - 分类更有信心
  • 熵 - 结果概率分布的熵越小,决策越有信心
  • 一些涉及KL散度等的进一步方法。

一般来说,您应该考虑检测结果分布的“均匀性”(暗示不太自信的决定)或“尖峰”(表示更自信的分类)的方法。

于 2013-12-08T14:57:36.010 回答
1

您正在寻找的是交叉熵:具体来说,您想要计算用分类器输出的一个近似真实分布的成本。在许多情况下,概率多类分类器会直接对此进行优化。看看这个

于 2013-12-09T12:18:26.783 回答