我有一个熊猫数据框,每天有 4 个不同的分数:
import pandas as pd
df = pd.DataFrame( {u'Date' : ['2014-08-15', '2014-08-16', '2014-08-17', '2014-08-18', '2014-08-19', '2014-08-20',
'2014-08-15', '2014-08-16', '2014-08-17', '2014-08-18', '2014-08-19', '2014-08-20',
'2014-08-15', '2014-08-16', '2014-08-17', '2014-08-18', '2014-08-19', '2014-08-20',
'2014-08-15', '2014-08-16', '2014-08-17', '2014-08-18', '2014-08-19', '2014-08-20'],
u'Score': [-0.13, -0.25, 0.1, -0.3, -0.1, 0.1,
-0.1, 0.1, -0.05, 0.2, -0.13, -0.25,
0.2, 0.5, 0.4, -0.2, -0.25, 0.1,
-0.3, 0.1, 0.25, 0.05, -0.05, 0.2]})
df.Date = pd.to_datetime(df.Date,format='%Y-%m-%d')
我想绘制分数的每日平均值。我正在尝试:
from numpy import *
from bokeh.plotting import *
output_file('question.html')
figure(x_axis_type="datetime", plot_width=800, plot_height=500)
grouped = df.groupby("Date")
score = grouped["Score"]
avg = score.mean()
print dates
dates = asarray(grouped.groups.keys())
hold(True)
line(dates, avg, line_color="grey", line_width=8, line_join="round")
asterisk(dates, avg, line_color="black", size=15)
hold(False)
但是,此代码会导致日期数组无序:
print dates
['2014-08-15T02:00:00.000000000+0200' '2014-08-16T02:00:00.000000000+0200'
'2014-08-18T02:00:00.000000000+0200' '2014-08-19T02:00:00.000000000+0200'
'2014-08-17T02:00:00.000000000+0200' '2014-08-20T02:00:00.000000000+0200']
并且我获得的图中的线(参见此链接中的图像)因此是错误的。
按日期排序:
df = df.sort(['Date'])
没有帮助。
另一方面,如果我尝试绘制相同的数据框但 4 天而不是 6 天:
df = pd.DataFrame( {u'Date' : ['2014-08-15', '2014-08-16', '2014-08-17', '2014-08-18',
'2014-08-15', '2014-08-16', '2014-08-17', '2014-08-18',
'2014-08-15', '2014-08-16', '2014-08-17', '2014-08-18',
'2014-08-15', '2014-08-16', '2014-08-17', '2014-08-18'],
u'Score': [-0.13, -0.25, 0.1, -0.3,
-0.1, 0.1, -0.05, 0.2,
0.2, 0.5, 0.4, -0.2,
-0.3, 0.1, 0.25, 0.05]})
那么日期数组是有序的并且情节是正确的。我不明白为什么,但无论如何我想要的是有 6 个或更多日期的情节。
如果您能帮助我,我将不胜感激。很明显,我做错了什么,但我是这些语言的初学者,我已经尝试了数百种解决方案,但均未成功。谢谢!