我正在评估许多不同的算法,它们的工作是预测事件发生的概率。
我正在大型数据集上测试算法。我使用“均方根误差”来衡量它们的有效性,它是((误差之和)平方)的平方根。误差是预测概率(0 到 1 之间的浮点值)与实际结果(0.0 或 1.0)之间的差异。
所以我知道 RMSE,以及算法测试的样本数量。
问题是有时 RMSE 值彼此非常接近,我需要一种方法来确定它们之间的差异是否只是偶然,或者它是否代表了实际的性能差异。
理想情况下,对于给定的 RMSE 值对,我想知道其中一个确实比另一个更好的概率是多少,以便我可以将此概率用作显着性阈值。