-1

我有一个不平衡的数字数据集,如下所示:

数据集.

我需要将数据分箱到 8 个箱中,但是如果我将箱设置为相同大小,我会将所有数据仅放入两个箱中,而中间的其余部分将为空。

有没有一种统计或数学方法可以在有很多数据点时用细粒度的 bin 离散数据,然后在数据点很少时使其更粗粒度的 bin?

4

1 回答 1

0

可以对数据进行排序并根据rank对其进行分类。有时也称为“深度”。因此,如果排序后的数据是

[1, 2, 4, 8, 16, 32]

你想要三个垃圾箱。你会用

[1, 2] [4, 8] [16, 32]

但是定义 bin 中心和边界的好逻辑很难吗?您可能会使用平均值:1.5、6、24 作为中心,将最大值和最小值的中值作为单元格边界:[1:3] [3:12] 和 [12:32]。

bin 大小不再有趣,因为它们都应该同样大?但是,如果您有多个变量,则箱的组合可能低于平均水平或高于预期。即表明变量之间的一些依赖关系。

于 2016-02-08T22:13:06.090 回答