在python中确定条形图的偏斜/峰度的有效方法是什么?考虑到条形图没有分箱(与直方图不同),这个问题没有多大意义,但我想做的是确定图的高度与距离(而不是频率与分箱)的对称性。换句话说,给定沿距离(x)测量的高度(y)值,即
y = [6.18, 10.23, 33.15, 55.25, 84.19, 91.09, 106.6, 105.63, 114.26, 134.24, 137.44, 144.61, 143.14, 150.73, 156.44, 155.71, 145.88, 120.77, 99.81, 85.81, 55.81, 49.81, 37.81, 25.81, 5.81]
x = [0.03, 0.08, 0.14, 0.2, 0.25, 0.31, 0.36, 0.42, 0.48, 0.53, 0.59, 0.64, 0.7, 0.76, 0.81, 0.87, 0.92, 0.98, 1.04, 1.09, 1.15, 1.2, 1.26, 1.32, 1.37]
在距离 (x) 上测量的高度 (y) 分布(偏度)和峰度(峰度)的对称性是什么?偏度/峰度是否适合用于确定实际值的正态分布?或者 scipy/numpy 是否为这种类型的测量提供了类似的东西?
我可以通过以下方式实现沿距离(x)分箱的高度(y)频率值的偏斜/峰度估计
freq=list(chain(*[[x_v]*int(round(y_v)) for x_v,y_v in zip(x,y)]))
x.extend([x[-1:][0]+x[0]]) #add one extra bin edge
hist(freq,bins=x)
ylabel("Height Frequency")
xlabel("Distance(km) Bins")
print "Skewness,","Kurtosis:",stats.describe(freq)[4:]
Skewness, Kurtosis: (-0.019354300509997705, -0.7447085398785758)
在这种情况下,高度分布在中点距离周围是对称的(偏斜 0.02),并以 platykurtic(-0.74 峰度,即宽)分布为特征。
考虑到我将每次出现的 x 值乘以它们的高度 y 以创建频率,结果列表的大小有时会变得非常大。我想知道是否有更好的方法来解决这个问题?我想我总是可以尝试将数据集 y 标准化到可能 0 - 100 的范围内,而不会丢失有关数据集偏斜/峰度的太多信息。