5

这个具体问题源于尝试处理由 MATLAB 算法生成的大型数据集,以便我可以使用 python 算法处理它们。

背景:我在 MATLAB 中有大型数组(通常为 20x20x40x15000 [i,j,k,frame]),我想在 python 中使用它们。因此,我将数组保存到 *.mat 文件中,并用于scipy.io.loadmat(fname)将 *.mat 文件读入 numpy 数组。但是,出现一个问题,如果我尝试在 python 中加载整个 *.mat 文件,则会发生内存错误。为了解决这个问题,我将 *.mat 文件切成小块,这样我就可以一次将一个块加载到 python 数组中。如果我按帧划分 *.mat,我现在有 15,000 个 *.mat 文件,使用起来很快就会很痛苦(至少在 Windows 中是这样)。所以我的解决方案是使用压缩文件。

问题:我可以使用 scipy 直接从压缩文件中读取 *.mat 文件,而无需先将文件解压缩到当前工作目录吗?

规格: Python 2.7,Windows XP

当前代码:

import scipy.io
import zipfile
import numpy as np

def readZip(zfilename,dim,frames):
    data=np.zeros((dim[0],dim[1],dim[2],frames),dtype=np.float32)
    zfile = zipfile.ZipFile( zfilename, "r" )
    i=0
    for info in zfile.infolist():
        fname = info.filename
        zfile.extract(fname)
        mat=scipy.io.loadmat(fname)
        data[:,:,:,i]=mat['export']
        mat.clear()
        i=i+1
    return data

试过的代码:

mat=scipy.io.loadmat(zfile.read(fname))

产生此错误:

TypeError: file() argument 1 must be encoded string without NULL bytes, not str

mat=scipy.io.loadmat(zfile.open(fname))

产生此错误:

fileobj.seek(0)
UnsupportedOperation: seek

任何其他有关处理数据的建议表示赞赏。

谢谢!

4

2 回答 2

3

我很确定我的问题的答案是否定的,并且有更好的方法来完成我想要做的事情。

无论如何,在 JF Sebastian 的建议下,我设计了一个解决方案。

解决方法:将MATLAB中的数据保存为HDF5格式,即hdf5write(fname, '/data', data_variable). 这会生成一个 *.h5 文件,然后可以通过h5py将其读入 python 。

蟒蛇代码:

import h5py

r = h5py.File(fname, 'r+')
data = r['data']

我现在可以直接索引到数据中,但是仍然保留在硬盘上。

print data[:,:,:,1]

或者我可以将它加载到内存中。

data_mem = data[:]

然而,这再次产生了内存错误。因此,为了将其放入内存,我可以遍历每一帧并将其添加到一个 numpy 数组中。

h5py FTW!

于 2012-06-20T19:32:36.353 回答
0

在我的一个冻结应用程序中,我们将一些文件捆绑到 py2exe 创建的 .bin 文件中,然后像这样将它们拉出:

z = zipfile.ZipFile(os.path.join(myDir, 'common.bin'))

data = z.read('schema-new.sql')

我不确定这是否会将您的 .mat 文件输入 scipy,但我认为值得一试。

于 2012-06-19T17:27:03.660 回答