我有一个数据集的熊猫系列 value_counts。我想用色带绘制数据(我正在使用散景,但计算数据带是重要的部分):
我犹豫使用标准偏差这个词,因为我使用的所有参考都是基于平均值计算的,我特别想使用模式作为中心。
所以,基本上,我正在寻找一种在 pandas 中从模式开始并返回一个新的值计数系列的方法,其中包括 value_counts 总和的 68.2%。如果我有这个系列:
val count
1 0
2 0
3 3
4 1
5 2
6 5 <-- mode
7 4
8 3
9 2
10 1
total = sum(count) # example value 21
band1_count = 21 * 0.682 # example value ~ 14.3
这是它们将基于一种算法添加的顺序,该算法遍历模式每一侧的值计数并包括两者中的较高者,直到计数总和大于 14.3。
band1_values = [6, 7, 8, 5, 9]
以下是步骤:
val count step
1 0
2 0
3 3
4 1
5 2 <-- 4) add to list -- eq (9,2), closer to (6,5)
6 5 <-- 1) add to list -- mode
7 4 <-- 2) add to list -- gt (5,2)
8 3 <-- 3) add to list -- gt (5,2)
9 2 <-- 5) add to list -- gt (4,1), stop since sum of counts > 14.3
10 1
在 pandas 或 numpy 中是否有本地方法来进行此计算?如果这项研究有正式名称,我会很高兴知道它的名称。