单个输出神经元的激活值是一个线性加权和,如果网络被训练以给出从 0 到 1 的输出范围,则可以直接将其解释为近似概率。如果传递函数 (或输出函数)在前一阶段并提供最终输出也在 0 到 1 的范围内(通常是 sigmoidal 逻辑函数)。但是,不能保证它会,但可以进行维修。此外,除非 sigmoid 是逻辑的并且权重被限制为正且总和为 1,否则这是不可能的。通常,神经网络将使用 tanh sigmoid 以及正负范围内的权重和激活(由于该模型的对称性)以更平衡的方式进行训练。另一个因素是班级的普遍性——如果是 50%,那么就是 0。5 阈值可能对逻辑有效,而 0.0 阈值可能对 tanh 有效。sigmoid 旨在将事物推向范围的中心(在反向传播中)并限制它超出范围(在前馈中)。性能的重要性(相对于伯努利分布)也可以解释为神经元做出真实预测而不是猜测的概率。理想情况下,预测变量对正数的偏差应该与现实世界中正数的普遍性相匹配(这可能在不同的时间和地点有所不同,例如牛市与熊市,例如申请贷款的人与未能偿还贷款的人的信誉度) ) - 校准到概率的优点是可以轻松设置任何所需的偏差。tanh 的 0 阈值。sigmoid 旨在将事物推向范围的中心(在反向传播中)并限制它超出范围(在前馈中)。性能的重要性(相对于伯努利分布)也可以解释为神经元做出真实预测而不是猜测的概率。理想情况下,预测变量对正数的偏差应该与现实世界中正数的普遍性相匹配(这可能在不同的时间和地点有所不同,例如牛市与熊市,例如申请贷款的人与未能偿还贷款的人的信誉度) ) - 校准到概率的优点是可以轻松设置任何所需的偏差。tanh 的 0 阈值。sigmoid 旨在将事物推向范围的中心(在反向传播中)并限制它超出范围(在前馈中)。性能的重要性(相对于伯努利分布)也可以解释为神经元做出真实预测而不是猜测的概率。理想情况下,预测变量对正数的偏差应该与现实世界中正数的普遍性相匹配(这可能在不同的时间和地点有所不同,例如牛市与熊市,例如申请贷款的人与未能偿还贷款的人的信誉度) ) - 校准到概率的优点是可以轻松设置任何所需的偏差。sigmoid 旨在将事物推向范围的中心(在反向传播中)并限制它超出范围(在前馈中)。性能的重要性(相对于伯努利分布)也可以解释为神经元做出真实预测而不是猜测的概率。理想情况下,预测变量对正数的偏差应该与现实世界中正数的普遍性相匹配(这可能在不同的时间和地点有所不同,例如牛市与熊市,例如申请贷款的人与未能偿还贷款的人的信誉度) ) - 校准到概率的优点是可以轻松设置任何所需的偏差。sigmoid 旨在将事物推向范围的中心(在反向传播中)并限制它超出范围(在前馈中)。性能的重要性(相对于伯努利分布)也可以解释为神经元做出真实预测而不是猜测的概率。理想情况下,预测变量对正数的偏差应该与现实世界中正数的普遍性相匹配(这可能在不同的时间和地点有所不同,例如牛市与熊市,例如申请贷款的人与未能偿还贷款的人的信誉度) ) - 校准到概率的优点是可以轻松设置任何所需的偏差。性能的重要性(相对于伯努利分布)也可以解释为神经元做出真实预测而不是猜测的概率。理想情况下,预测变量对正数的偏差应该与现实世界中正数的普遍性相匹配(这可能在不同的时间和地点有所不同,例如牛市与熊市,例如申请贷款的人与未能偿还贷款的人的信誉度) ) - 校准到概率的优点是可以轻松设置任何所需的偏差。性能的重要性(相对于伯努利分布)也可以解释为神经元做出真实预测而不是猜测的概率。理想情况下,预测变量对正数的偏差应该与现实世界中正数的普遍性相匹配(这可能在不同的时间和地点有所不同,例如牛市与熊市,例如申请贷款的人与未能偿还贷款的人的信誉度) ) - 校准到概率的优点是可以轻松设置任何所需的偏差。
如果你有两个类的两个神经元,每个都可以像上面那样独立解释,它们之间的差异也可以减半。这就像翻转负类神经元并进行平均。差异还可以产生显着性估计的概率(使用 T 检验)。
Brier 分数及其墨菲分解给出了对平均答案正确概率的更直接估计,而 Informedness 给出了分类器做出明智决策而不是猜测的概率,ROC AUC 给出了对正类进行排名的概率高于负类(通过正预测器),并且当流行度 = 偏差时,Kappa 将给出与 Informedness 匹配的相似数字。
您通常需要的是整个分类器的显着性概率(以确保您在真实的领域中进行比赛,而不是在虚构的猜测框架中)和特定示例的概率估计。有多种校准方法,包括对概率进行回归(线性或非线性),并使用其反函数重新映射到更准确的概率估计。这可以从 Brier 分数的提高中看出,校准分量减少到 0,但鉴别分量保持不变,ROC AUC 和知情度也应该保持不变(Kappa 会受到偏差并且可能会恶化)。
校准概率的一种简单的非线性方法是使用 ROC 曲线 - 随着单个神经元的输出或两个竞争神经元之间的差异的阈值发生变化,我们在 ROC 曲线上绘制结果的真假阳性率(假阴性率和真阴性率自然是互补的,因为不是真正的阳性就是阴性)。然后,您逐点扫描 ROC 曲线(折线)(每次梯度变化时),并且正样本的比例为您提供与产生该点的神经阈值相对应的正样本的概率估计。曲线上点之间的值可以在校准集中表示的值之间进行线性插值 - 实际上是 ROC 曲线中的任何坏点,由非凸面(凹痕)表示的凸包可以通过凸包进行平滑处理 - 在包段的端点之间进行概率插值。Flach 和 Wu 提出了一种实际上翻转片段的技术,但这取决于信息被错误地使用,虽然它可以重复用于对校准集的任意改进,但它越来越不可能推广到测试情况。
(我来这里是为了寻找我很久以前看过的关于这些基于 ROC 的方法的论文——所以这是来自记忆,没有这些丢失的参考资料。)