我正在尝试创建一个 Pandas 数据框,以便可以使用 ggPlot 创建一些可视化。但是我很难设置 DataFrame 结构。
我的可视化将是(年份与总计)的线图。多年来,线图将跟踪多个“cause_of_death”。
我已经导入了我的 CSV 文件,按年份分组,然后是“cause_of_death”并进行计数。但是创建线图的格式不正确,因为它不是 DataFrame。
以下是我的代码;任何建议都会有所帮助,谢谢。
我想要的 CSV 文件中的字段是“deathYear”和“cause_of_death”
from pandas import *
from ggplot import *
df = pandas.read_csv('query_result.csv')
newDF = df.loc[:,['date_of_death_year','acme_underlying_cause_code']]
data = DataFrame(newDF.groupby(['date_of_death_year','acme_underlying_cause_code']).size())
print data