我正在寻找一个 java 库/实现,它支持以合理的精度计算 beta 分布的逆累积分布函数(又名分位数估计) 。
当然,我尝试过apache commons math ,但在第 3 版中,精度似乎仍然存在一些问题。下面对导致这个问题的问题进行了广泛描述。
假设我想通过大量试验计算 beta 分布的可信区间。在apache 公共数学...
final int trials = 161750;
final int successes = 10007;
final double alpha = 0.05d;
// the supplied precision is the default precision according to the source code
BetaDistribution betaDist = new BetaDistribution(successes + 1, trials - successes + 1, 1e-9);
System.out.println("2.5 percentile :" + betaDist.inverseCumulativeProbability(alpha / 2d));
System.out.println("mean: " + betaDist.getNumericalMean());
System.out.println("median: " + betaDist.inverseCumulativeProbability(0.5));
System.out.println("97.5 percentile :" + betaDist.inverseCumulativeProbability(1 - alpha / 2d));
提供
2.5 percentile :0.062030402074808505
mean: 0.06187249616697166
median: 0.062030258659508855
97.5 percentile :0.06305170793994147
问题是 2.5 百分位数和中位数相同,同时都大于平均值。
相比之下,R包binom提供
binom.confint(10007+1,161750+2,methods=c("agresti-coull","exact","wilson"))
method x n mean lower upper
1 agresti-coull 10008 161752 0.0618725 0.06070873 0.06305707
2 exact 10008 161752 0.0618725 0.06070317 0.06305756
3 wilson 10008 161752 0.0618725 0.06070877 0.06305703
和R -package统计信息
qbeta(c(0.025,0.975),10007+1,161750-10007+1)
[1] 0.06070355 0.06305171
为了支持 R 的结果,这是Wolfram Alpha告诉我的
- InverseBetaRegularized[0.025,10007+1,161750-10007+1] => 0.06070354631...
- InverseBetaRegularized[0.975,10007+1,161750-10007+1] => 0.06305170794...
关于要求的最后说明:
- 我需要进行很多这样的计算。因此,任何解决方案都不应花费超过 1 秒的时间(与 apache 公共数学的 41 毫秒(尽管是错误的)相比仍然很多)。
- 我知道可以在 java 中使用 R。由于我不会在这里详细说明的原因,如果其他任何事情(纯 java)失败,这是最后一个选项。
更新 21.08.12
似乎该问题已在 apache-commons-math 的 3.1-SNAPSHOT 中得到修复或至少得到改进。对于上面的用例
2.5 percentile :0.06070354581340706
mean: 0.06187249616697166
median: 0.06187069085946604
97.5 percentile :0.06305170793994147
更新 23.02.13
虽然乍一看这个问题及其回答可能过于本地化,但我认为它很好地说明了一些数值问题无法(有效地)通过首先想到的黑客方法来解决。所以我希望它保持开放。