假设我们有三个类:A、B 和 C,我们使用标准 MaxEnt 分类器对文档“d”进行分类,并得出以下概率:
P(d, A) = 0.50
P(d, B) = 0.25
P(d, C) = 0.25
在某种程度上,我觉得这与这组概率非常不同:
P(d, A) = 0.50
P(d, B) = 0.49
P(d, C) = 0.01
有没有办法区分这两者之间的差异?
假设我们有三个类:A、B 和 C,我们使用标准 MaxEnt 分类器对文档“d”进行分类,并得出以下概率:
P(d, A) = 0.50
P(d, B) = 0.25
P(d, C) = 0.25
在某种程度上,我觉得这与这组概率非常不同:
P(d, A) = 0.50
P(d, B) = 0.49
P(d, C) = 0.01
有没有办法区分这两者之间的差异?
您面临的问题通常被称为分类器之间的“共识”。由于多标签 MaxEnt 可以被视为 N 个独立的分类器,因此您可以将其视为一组为不同类别“投票”的模型。
现在,计算这种“共识”的措施有很多,包括:
一般来说,您应该考虑检测结果分布的“均匀性”(暗示不太自信的决定)或“尖峰”(表示更自信的分类)的方法。
您正在寻找的是交叉熵:具体来说,您想要计算用分类器输出的一个近似真实分布的成本。在许多情况下,概率多类分类器会直接对此进行优化。看看这个。