python - 如何通过 h5py 读取 v7.3 mat 文件？

Question

我有一个由 matlab 创建并存储在 v7.3 格式 mat 文件中的结构数组：

struArray = struct('name', {'one', 'two', 'three'}, 
                   'id', {1,2,3}, 
                   'data', {[1:10], [3:9], [0]})
save('test.mat', 'struArray', '-v7.3')

现在我想通过 python 使用 h5py 读取这个文件：

data = h5py.File('test.mat')
struArray = data['/struArray']

我不知道如何从以下位置一一获取结构数据struArray：

for index in range(<the size of struArray>):
    elem = <the index th struct in struArray>
    name = <the name of elem>
    id = <the id of elem>
    data = <the data of elem>

score 13 · Accepted Answer

Matlab 7.3 文件格式不是很容易与 h5py 一起使用。它依赖于 HDF5 参考，参见。h5py 文档参考资料。

>>> import h5py
>>> f = h5py.File('test.mat')
>>> list(f.keys())
['#refs#', 'struArray']
>>> struArray = f['struArray']
>>> struArray['name'][0, 0]  # this is the HDF5 reference
<HDF5 object reference>
>>> f[struArray['name'][0, 0]].value  # this is the actual data
array([[111],
       [110],
       [101]], dtype=uint16)

阅读struArray(i).id：

>>> f[struArray['id'][0, 0]][0, 0]
1.0
>>> f[struArray['id'][1, 0]][0, 0]
2.0
>>> f[struArray['id'][2, 0]][0, 0]
3.0

请注意，Matlab 将数字存储为大小为 (1, 1) 的数组，因此最终[0, 0]获得数字。

阅读struArray(i).data：

>>> f[struArray['data'][0, 0]].value
array([[  1.],
       [  2.],
       [  3.],
       [  4.],
       [  5.],
       [  6.],
       [  7.],
       [  8.],
       [  9.],
       [ 10.]])

要读取struArray(i).name，需要将整数数组转换为字符串：

>>> f[struArray['name'][0, 0]].value.tobytes()[::2].decode()
'one'
>>> f[struArray['name'][1, 0]].value.tobytes()[::2].decode()
'two'
>>> f[struArray['name'][2, 0]].value.tobytes()[::2].decode()
'three'

score 3 · Accepted Answer

visit或者visititems是查看h5py文件整体结构的快速方法：

fs['struArray'].visititems(lambda n,o:print(n, o))

当我在 Octave 生成的文件上运行它时，save -hdf5我得到：

type <HDF5 dataset "type": shape (), type "|S7">
value <HDF5 group "/struArray/value" (3 members)>
value/data <HDF5 group "/struArray/value/data" (2 members)>
value/data/type <HDF5 dataset "type": shape (), type "|S5">
value/data/value <HDF5 group "/struArray/value/data/value" (4 members)>
value/data/value/_0 <HDF5 group "/struArray/value/data/value/_0" (2 members)>
value/data/value/_0/type <HDF5 dataset "type": shape (), type "|S7">
value/data/value/_0/value <HDF5 dataset "value": shape (10, 1), type "<f8">
value/data/value/_1 <HDF5 group "/struArray/value/data/value/_1" (2 members)>
...
value/data/value/dims <HDF5 dataset "dims": shape (2,), type "<i4">
value/id <HDF5 group "/struArray/value/id" (2 members)>
value/id/type <HDF5 dataset "type": shape (), type "|S5">
value/id/value <HDF5 group "/struArray/value/id/value" (4 members)>
value/id/value/_0 <HDF5 group "/struArray/value/id/value/_0" (2 members)>
...
value/id/value/_2/value <HDF5 dataset "value": shape (), type "<f8">
value/id/value/dims <HDF5 dataset "dims": shape (2,), type "<i4">
value/name <HDF5 group "/struArray/value/name" (2 members)>
...
value/name/value/dims <HDF5 dataset "dims": shape (2,), type "<i4">

这可能与 MATLAB 7.3 产生的不同，但它给出了结构复杂性的概念。

更精细的回调可以显示值，并且可以作为重新创建 Python 对象（字典、列表等）的起点。

def callback(name, obj):
    if name.endswith('type'):
        print('type:', obj.value)
    elif name.endswith('value'):
        if type(obj).__name__=='Dataset':
            print(obj.value.T)  # http://stackoverflow.com/questions/21624653
    elif name.endswith('dims'):
        print('dims:', obj.value)
    else:
        print('name:', name)

fs.visititems(callback)

产生：

name: struArray
type: b'struct'
name: struArray/value/data
type: b'cell'
name: struArray/value/data/value/_0
type: b'matrix'
[[  1.   2.   3.   4.   5.   6.   7.   8.   9.  10.]]
name: struArray/value/data/value/_1
type: b'matrix'
[[ 3.  4.  5.  6.  7.  8.  9.]]
name: struArray/value/data/value/_2
type: b'scalar'
0.0
dims: [3 1]
name: struArray/value/id
type: b'cell'
name: struArray/value/id/value/_0
type: b'scalar'
1.0
...
dims: [3 1]
name: struArray/value/name
type: b'cell'
name: struArray/value/name/value/_0
type: b'sq_string'
[[111 110 101]]
...
dims: [3 1]

score 0 · Accepted Answer

很抱歉，但我认为从 Matlab 外部获取单元格/结构的内容将非常具有挑战性。如果您查看生成的文件（例如使用 HDFView），您会看到有很多交叉引用并且没有明显的方法可以继续。

如果您坚持使用简单的数字数组，它可以正常工作。如果您有包含数值数组的小元胞数组，您可以将它们转换为单独的变量（即 cellcontents1、cellcontents2 等），这些变量通常只有几行，可以直接保存和加载。因此，在您的示例中，我将使用 varsname1, name2, name3, id1, id2, id3 ...等保存文件。

编辑：您在问题中指定了 h5py，这就是我的回答，但值得一提的是，scipy.io.loadmat您应该能够将原始变量转换为 numpy 等价物（例如对象数组）。

score 0 · Accepted Answer

我会首先启动解释器并help在struarray. 它应该为您提供足够的信息来帮助您入门。print如果做不到这一点，你可以通过ing属性来转储任何 Python 对象的__dict__属性。

score 0 · Accepted Answer

我知道两种解决方案（如果*.mat文件非常大或非常深，我制作的其中一种效果更好）可以抽象出您与h5py库的直接交互。

该hdf5storage软件包维护良好，旨在帮助将 v7.3 保存的 matfile 加载到 Python 中
我自己的 matfile 加载器，我写它是为了克服某些问题，即使最新版本 ( 0.2.0)hdf5storage已经加载了大 (~500Mb) 和/或深数组（我实际上不确定这两者中的哪一个导致问题）

假设您已将这两个包下载到可以将它们加载到 Python 中的位置，您可以看到它们为您的示例产生了类似的输出'test.mat'：

In [1]: pyInMine = LoadMatFile('test.mat')
In [2]: pyInHdf5 = hdf5.loadmat('test.mat')  
In [3]: pyInMine()                                                                                                                                          
Out[3]: dict_keys(['struArray'])
In [4]: pyInMine['struArray'].keys()                                                                                                                             
Out[4]: dict_keys(['data', 'id', 'name'])
In [5]: pyInHdf5.keys()                                                                                                                                      
Out[5]: dict_keys(['struArray'])
In [6]: pyInHdf5['struArray'].dtype                                                                                                                          
Out[6]: dtype([('name', 'O'), ('id', '<f8', (1, 1)), ('data', 'O')])
In [7]: pyInHdf5['struArray']['data']                                                                                                                        
Out[7 ]: 
array([[array([[ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.]]),
        array([[3., 4., 5., 6., 7., 8., 9.]]), array([[0.]])]],
      dtype=object)
In [8]: pyInMine['struArray']['data']                                                                                                                            
Out[8]: 
array([[array([[ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.]]),
        array([[3., 4., 5., 6., 7., 8., 9.]]), array([[0.]])]],
      dtype=object)

最大的不同是我的库将 Matlab 中的结构数组转换为 Python 字典，其键是结构的字段，而hdf5storage将它们转换为numpy具有各种 dtype 存储字段的对象数组。

我还注意到，数组的索引行为与您对 Matlab 方法的期望不同。具体来说，在 Matlab 中，为了获得name第二个结构的字段，您将索引结构：

[Matlab] >> struArray(2).name`
[Matlab] >> 'two'

在我的包中，你必须先抓取字段然后索引：

In [9]: pyInMine['struArray'].shape                                                                                                                              
---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
<ipython-input-64-a2f85945642b> in <module>
----> 1 pyInMine['struArray'].shape

AttributeError: 'dict' object has no attribute 'shape'
In [10]: pyInMine['struArray']['name'].shape
Out[10]: (1, 3)
In [11]: pyInMine['struArray']['name'][0,1]
Out[11]: 'two'

由于结构化对象数组的工作方式，该hdf5storage包稍微好一点，它允许您索引结构然后抓取字段，反之亦然：numpy

In [12]: pyInHdf5['struArray'].shape
Out[12]: (1, 3)
In [13]: pyInHdf5['struArray'][0,1]['name']
Out[13]: array([['two']], dtype='<U3')
In [14]: pyInHdf5['struArray']['name'].shape
Out[14]: (1, 3)
In [15]: pyInHdf5['struArray']['name'][0,1]
Out[15]: array([['two']], dtype='<U3')

同样，这两个包对最终输出的处理略有不同，但总的来说，它们都非常擅长读取 v7.3 matfiles。最后的想法是在 ~500MB+ 文件的情况下，我发现hdf5storage包在加载时挂起，而我的包没有（尽管完成加载仍然需要 ~1.5 分钟）。

score -1 · Accepted Answer

这确实是 Matlab 7.3 和 h5py 的问题。我的诀窍是将h5py._hl.dataset.Dataset类型转换为numpy数组。例如，

np.array(data['data'])

将解决您在该'data'领域的问题。

python - 如何通过 h5py 读取 v7.3 mat 文件？

6 回答 6

Related

Reference