我有一个df
包含三列的数据集:'String_key_val'
, 'Float_other_val1'
, 'Int_other_val2'
. 我想对 key_val 进行分组,然后针对这些组提取val1
(resp. ) 的总和。val2
这是我的代码:
df = pandas.read_csv('test.csv')
grouped = df.groupby('String_key_val')
series_calculus1 = grouped['Float_other_val1'].sum()
series_calculus2 = grouped['Int_other_val2'].sum()
res = pandas.concat([series_calculus1, series_calculus2], axis=1)
res.to_csv('output_test.csv')
我的问题是:我的入口数据集是 10GB,我有 4Go Ram,所以我需要对我的微积分进行分块,但我看不出如何。我想过使用HDFStore
,但由于我只需要构建一个数字数据集,我认为存储 complete 没有意义DataFrame
,而且我认为HDFStore
不能存储简单的数组。我能做些什么?