function - 一组值的累积分布函数

Question

我有一个直方图，我在其中计算函数采用 0.8 和 2.2 范围内的特定值的出现次数。

我想获得一组值的累积分布函数。只计算每个特定值之前的出现总数是否正确。

例如，0.9 处的 cdf 将是从 0.8 到 0.9 所有出现的总和？

这是对的吗？

谢谢

score 0 · Accepted Answer

由条目数归一化的总和将为您提供 cdf 的估计值，是的。它将与直方图一样准确，它是 pdf 的准确表示。如果您想在除 bin 端点之外的任何地方评估 cdf，则包含一小部分计数是有意义的，这样如果您有断点 b_i 和 b_j，那么要在某个点 b_i < p < b_j 评估 cdf，您应该添加来自相关单元格的计数分数 (p - b_i) / (b_j-b_i)。本质上，这假定细胞内的密度均匀。

您也可以从基础值中获得 cdf 的估计值（根据您的问题，我不太确定您可以访问什么，它的 bin 是否计入直方图中或实际值）。请注意，这样做会在每个数据点上给您的 CDF 不连续性（步骤），因此请考虑您是否有足够的 CDF，以及您使用 CDF 的目的，以确定这是否合适。

作为警告的最后一点，请注意，在观察值范围之外评估 cdf 将为您提供零或一的估计概率（x<0.8 为零，x>2.2 为一）。您应该考虑该函数是否真正有界于该区间，如果不是，则使用一些平滑来确保在观察值范围之外的少量概率质量。

function - 一组值的累积分布函数

1 回答 1

Related

Reference