5

我面临一个问题,我必须在循环中生成大型数据帧(每次两个 2000 x 800 熊猫数据帧计算 50 次迭代)。我想将结果保存在内存中更大的 DataFrame 或类似结构的字典中。使用 pandas.concat 时,我在循环中的某个位置出现内存错误。当使用 numpy.append 将结果存储在 numpy 数组字典而不是 DataFrame 中时,也会发生同样的情况。在这两种情况下,我仍然有很多可用内存(几 GB)。对于 pandas 或 numpy 来说,处理的数据太多了吗?是否有更节省内存的方法来存储我的数据而不将其保存在磁盘上?

例如,一旦nbIds大于 376,以下脚本就会失败:

import pandas as pd
import numpy as np
nbIds = 376
dataids = range(nbIds)
dataCollection1 = []
dataCollection2 = []
for bs in range(50):
    newData1 = pd.DataFrame( np.reshape(np.random.uniform(size = 
                                                          2000 * len(dataids)), 
                                        (2000,len(dataids ))))
    dataCollection1.append( newData1 )
    newData2 = pd.DataFrame( np.reshape(np.random.uniform(size = 
                                                          2000 * len(dataids)), 
                                        (2000,len(dataids ))))
    dataCollection2.append( newData2 )
dataCollection1 = pd.concat(dataCollection1).reset_index(drop = True)
dataCollection2 = pd.concat(dataCollection2).reset_index(drop = True)

下面的代码在nbIds665 或更高时失败

import pandas as pd
import numpy as np
nbIds = 665
dataids = range(nbIds)
dataCollection1 = dict( (i , np.array([])) for i in dataids )
dataCollection2 = dict( (i , np.array([])) for i in dataids )
for bs in range(50):
    newData1 = np.reshape(np.random.uniform(size = 2000 * len(dataids)), 
                         (2000,len(dataids )))
    newData1 = pd.DataFrame(newData1)
    newData2 = np.reshape(np.random.uniform(size = 2000 * len(dataids)), 
                         (2000,len(dataids)))
    newData2 = pd.DataFrame(newData2)
    for i in dataids :
        dataCollection1[i] = np.append(dataCollection1[i] , 
                                       np.array(newData1[i]))
        dataCollection2[i] = np.append(dataCollection2[i] , 
                                       np.array(newData2[i]))

我确实需要每次都计算两个 DataFrame,并且对于每个元素idataids我需要获取一个 pandas Series 或一个 numpy 数组,其中包含为i. 理想情况下,我需要能够以nbIds等于 800 或更多的速度运行它。有没有一种简单的方法可以做到这一点?

我正在使用带有 Python 2.7.5、pandas 0.12.0 和 numpy 1.7.1 的 32 位 Python。

非常感谢您的帮助!

4

3 回答 3

6

这基本上就是你正在做的事情。请注意,如果您在之前或之后转换为 DataFrame,从内存的角度来看并没有太大的区别。

但是您可以指定 dtype='float32' 来有效地占用 1/2 的内存。

In [45]: np.concatenate([ np.random.uniform(size=2000 * 1000).astype('float32').reshape(2000,1000) for i in xrange(50) ]).nbytes
Out[45]: 400000000

In [46]: np.concatenate([ np.random.uniform(size=2000 * 1000).reshape(2000,1000) for i in xrange(50) ]).nbytes
Out[46]: 800000000

In [47]: DataFrame(np.concatenate([ np.random.uniform(size=2000 * 1000).reshape(2000,1000) for i in xrange(50) ]))
Out[47]: 
<class 'pandas.core.frame.DataFrame'>
Int64Index: 100000 entries, 0 to 99999
Columns: 1000 entries, 0 to 999
dtypes: float64(1000)
于 2013-10-25T15:04:31.507 回答
2

正如 usethedeathstar、Boud 和 Jeff 在评论中所建议的那样,切换到 64 位 python 就可以解决问题。
如果丢失精度不是问题,那么使用 Jeff 建议的 float32 数据类型也会增加可在 32 位环境中处理的数据量。

于 2013-10-28T09:11:37.960 回答
2

一种直接(但使用硬盘)的方法是简单地使用搁置(硬盘字典):http ://docs.python.org/2/library/shelve.html

于 2013-10-25T13:50:18.497 回答