machine-learning - 如何测试概率估计器的质量？

Question

我创建了一个启发式（ANN，但这并不重要）来估计事件的概率（体育比赛的结果，但这也不重要）。给定一些输入，这个启发式告诉我事件的概率是多少。类似于：鉴于这些输入，B 队有 65% 的机会获胜。

我有大量输入数据，现在我得到了结果（以前玩过的游戏）。我可以使用哪个公式/指标来限定我的估算器的准确性。

我看到的问题是，如果估计者说事件有 20% 的概率并且事件确实发生了。我无法判断我的估算器是对还是错。也许这是错误的，事件的可能性更大。也许它是正确的，事件发生的几率大约为 20%，并且确实发生了。也许是错的，事件发生的机会非常低，比如说千分之一，但这次恰好发生了。

幸运的是，我有很多这些实际测试数据，所以可能有一种方法可以使用它们来限定我的启发式方法。

有人有想法吗？

score 3 · Accepted Answer

您可以使用许多度量来量化二元分类器的性能。

您是否关心您的估计器（例如，ANN）是否输出校准的概率？

如果不是，即所有重要的是排序，最大化 ROC 曲线下的面积 (AUROC) 是对指标性能的一个很好的总结。其他都是“KS”统计，电梯。有很多在使用，并强调性能的不同方面。

如果您关心校准概率，那么最常见的指标是“交叉熵”（也称为伯努利概率/最大似然，逻辑回归中使用的典型度量）或“Brier 分数”。Brier 分数就是将连续预测概率与二元实际结果进行比较的均方误差。

哪个是正确的使用取决于分类器的最终应用。例如，您的分类器可能会很好地估计井喷的概率，但在接近的结果上却不合格。

通常，您尝试优化的真正指标是“赚到的钱”。这通常很难在数学上表示，但从那开始是您提出适当且计算上易于处理的指标的最佳机会。

score 1 · Accepted Answer

在某种程度上，它取决于您使用的决策功能。

在二进制分类任务的情况下（预测事件是否发生[例如：获胜]），一个简单的实现是预测1概率是否大于 50%，0否则。

如果您有一个多类问题（预测发生了 K 个事件中的哪一个 [例如：赢/平/输]），您可以预测概率最高的类别。

评估启发式的方法是通过将每个输入的实际类与该实例的启发式预测进行比较来计算预测误差。

请注意，您通常会将数据划分为训练/测试部分，以获得更好（无偏）的性能估计。

存在其他评估工具，例如ROC 曲线，这是一种描述与真/假正相关的性能的方法。

score 1 · Accepted Answer

正如你所说，如果你预测一个事件有 20% 的发生 - 而 80% 不会发生 - 观察一个孤立的事件不会告诉你你的估计器有多好或多差。但是，如果您有大量事件样本，您预测其成功率为 20%，但观察到在该样本中，成功率为 30%，您可能开始怀疑您的估计器已关闭。
一种方法是通过预测的发生概率对事件进行分组，并按组观察实际频率，并测量差异。例如，根据您拥有的数据量，将您预测发生率为 20% 到 25% 的所有事件分组，并按组计算实际发生频率 - 并测量每个组的差异。这应该可以让您很好地了解您的估算器是否有偏差，以及它可能偏离了哪些范围。

machine-learning - 如何测试概率估计器的质量？

3 回答 3

Related

Reference