4

给定一个具有非均匀分布(高峰值)的数据集,我想重新采样以创建一个具有近似均匀分布的新数据集。我的做法:

  1. 将数据划分为 bin。
  2. 目标 bin 级别 = 所有 bin 中每个 bin 的最小样本数。
  3. 随机删除样本,直到每个 bin 计数 = 目标 bin 级别。

有没有更好的技术?

4

1 回答 1

0

我们知道,对于均匀分布,我们有

平均值 = (a+b) / 2

方差 = (ba)^2 / 12

因此,您可以构建这些并使用这些参数从均匀分布中采样,您可以设置 a = min(data) 和 b = max(data) 或者 a = mean(lowest_bin) 和 b = mean(highest_bin) 或其他东西像那样。你想如何设置 a 和 b 取决于你的数据和你想要完成的事情

于 2017-08-29T09:14:57.503 回答