假设我有一个在过去 90 天内每天都测量的值。我想绘制值的直方图,但我想让查看者轻松查看过去 90 天的某些非重叠子集的测量值在哪里累积。我想通过将直方图的每个条“细分”成块来做到这一点。一大块是最早的观察,一大块是最近的,一大块是最近的。
这听起来像是一份工作,df.plot(kind='bar', stacked=True)
但我无法正确获取详细信息。
这是我到目前为止所拥有的:
import numpy as np
import pandas as pd
import seaborn as sbn
np.random.seed(0)
data = pd.DataFrame({'values': np.random.randn(90)})
data['bin'] = pd.cut(data['values'], 15, labels=False)
forhist = pd.DataFrame({'first70': data[:70].groupby('bin').count()['bin'],
'next15': data[70:85].groupby('bin').count()['bin'],
'last5': data[85:].groupby('bin').count()['bin']})
forhist.plot(kind='bar', stacked=True)
这给了我:
这个图有一些缺点:
- 条形图以错误的顺序堆叠。
last5
应该在顶部和next15
中间。即它们应该按列的顺序堆叠forhist
。 - 条之间有水平空间
- x 轴标有整数,而不是指示 bin 所代表的值。我的“第一选择”是将 x 轴标记为与我刚刚运行时完全相同的标记
data['values'].hist()
。我的“第二个选择”是让 x 轴标有如果我这样做的话我会得到的“bin 名称”pd.cut(data['values'], 15)
。在我的代码中,我使用labels=False
了因为如果我不这样做,它将使用 bin 边缘标签(作为字符串)作为条形标签,并且它会将这些按字母顺序排列,从而使图表基本上无用。
解决这个问题的最佳方法是什么?到目前为止,我觉得我正在使用非常笨拙的功能。