我有一个直方图,我在其中计算函数采用 0.8 和 2.2 范围内的特定值的出现次数。
我想获得一组值的累积分布函数。只计算每个特定值之前的出现总数是否正确。
例如,0.9 处的 cdf 将是从 0.8 到 0.9 所有出现的总和?
这是对的吗?
谢谢
我有一个直方图,我在其中计算函数采用 0.8 和 2.2 范围内的特定值的出现次数。
我想获得一组值的累积分布函数。只计算每个特定值之前的出现总数是否正确。
例如,0.9 处的 cdf 将是从 0.8 到 0.9 所有出现的总和?
这是对的吗?
谢谢
由条目数归一化的总和将为您提供 cdf 的估计值,是的。它将与直方图一样准确,它是 pdf 的准确表示。如果您想在除 bin 端点之外的任何地方评估 cdf,则包含一小部分计数是有意义的,这样如果您有断点 b_i 和 b_j,那么要在某个点 b_i < p < b_j 评估 cdf,您应该添加来自相关单元格的计数分数 (p - b_i) / (b_j-b_i)。本质上,这假定细胞内的密度均匀。
您也可以从基础值中获得 cdf 的估计值(根据您的问题,我不太确定您可以访问什么,它的 bin 是否计入直方图中或实际值)。请注意,这样做会在每个数据点上给您的 CDF 不连续性(步骤),因此请考虑您是否有足够的 CDF,以及您使用 CDF 的目的,以确定这是否合适。
作为警告的最后一点,请注意,在观察值范围之外评估 cdf 将为您提供零或一的估计概率(x<0.8 为零,x>2.2 为一)。您应该考虑该函数是否真正有界于该区间,如果不是,则使用一些平滑来确保在观察值范围之外的少量概率质量。