1

我有一个数据集的熊猫系列 value_counts。我想用色带绘制数据(我正在使用散景,但计算数据带是重要的部分):

我犹豫使用标准偏差这个词,因为我使用的所有参考都是基于平均值计算的,我特别想使用模式作为中心。

所以,基本上,我正在寻找一种在 pandas 中从模式开始并返回一个新的值计数系列的方法,其中包括 value_counts 总和的 68.2%。如果我有这个系列:

val  count
1    0
2    0
3    3
4    1
5    2
6    5    <-- mode
7    4  
8    3    
9    2   
10   1

total = sum(count) # example value 21
band1_count = 21 * 0.682 # example value ~ 14.3

这是它们将基于一种算法添加的顺序,该算法遍历模式每一侧的值计数并包括两者中的较高者,直到计数总和大于 14.3。

band1_values = [6, 7, 8, 5, 9]

以下是步骤:

val  count   step
1    0
2    0
3    3
4    1
5    2    <-- 4) add to list -- eq (9,2), closer to (6,5)
6    5    <-- 1) add to list -- mode
7    4    <-- 2) add to list -- gt (5,2)
8    3    <-- 3) add to list -- gt (5,2)
9    2    <-- 5) add to list -- gt (4,1), stop since sum of counts > 14.3
10   1 

在 pandas 或 numpy 中是否有本地方法来进行此计算?如果这项研究有正式名称,我会很高兴知道它的名称。

4

0 回答 0