7

我正在做一些粒子物理分析,希望有人能给我一些关于我试图用来推断一些数据的高斯过程拟合的见解。

我有不确定的数据,我正在输入 scikit-learn GaussianProcess 算法。我通过“nugget”参数包含不确定性(我的实现与此处的标准示例相匹配,其中我的“corr”是指数平方,“nugget”值设置为(dy/y)**2)。主要关注点是:我在分布边缘的绝对不确定性较低(但部分不确定性较高),这导致预测的置信区间比我在该区域的预期大得多(见下图)。

数据点和 GP 回归

不确定性以这种方式表现的原因是我正在处理粒子物理数据,它是用不同特征 (x) 值观察到的粒子计数的直方图。这些计数遵循泊松分布,因此具有 sqrt(N) 的不确定性(标准偏差)。因此,分布的较高计数区域具有较高的绝对不确定性,但分数不确定性较低,反之亦然。

正如我所提到的,我理解,在使用平方指数内核时,此函数中的“金块”参数应该具有 (分数不确定性)**2 的值。因此,如果预测的不确定性基于输入的分数不确定性,那么它在边缘上可能很大,这是有道理的。但是我不完全理解这在数学中是如何发挥作用的,而且预测的不确定性的大小比边缘上的数据点不确定性大得多,这对我来说似乎是错误的。

任何人都可以评论这里发生的事情吗?这是否符合预期?如果是这样,为什么?任何关于该主题的进一步阅读的想法或参考将不胜感激!

我会给你一些重要的警告:

1) 在分布的边缘有几个计数为零的数据点。这会在“金块”的分数不确定性中产生一个扭结,因为 (sqrt(0)/0)**2 不是一个非常令人满意的值。我在这里进行了调整,只是将这些点的块金值设置为 1.0,如果这是 1 的计数,这对应于你得到的值。我相信这是一个常见的近似值,它确实会影响手头的问题,但我不'认为它不会从根本上改变问题。

2)我正在使用的数据实际上是一个二维直方图(即,一个自变量(比如说x),另一个(y)和计数作为因变量(z))。显示的图是 2d 数据和预测的 1d 切片(即 z 与 x 在 y 的小范围内积分)。我不认为这真的会影响手头的问题,但我想我会提到它。

4

1 回答 1

0

从你的介绍来看,我怀疑这种行为是正确的,尽管我还没有完成数学计算。我的直觉告诉我:不要做统一的直方图。当您离开配送中心时,使箱柜尺寸变大。这将增加您的价值并减少您的小数误差。

于 2016-04-13T16:27:48.460 回答