python - 将 h5py 数据集输出到文本的快速方法是什么？

Question

我正在使用 h5py python 包读取 HDF5 格式的文件。（例如 somefile.h5）我想将数据集的内容写入文本文件。

比如我想创建一个文本文件，内容如下：1,20,31,75,142,324,78,12,3,90,8,21,1

我可以使用以下代码访问 python 中的数据集：

import h5py
f     = h5py.File('/Users/Me/Desktop/thefile.h5', 'r')
group = f['/level1/level2/level3']
dset  = group['dsetname']

我天真的方法太慢了，因为我的数据集有超过 20000 个条目：

# write all values to file        
for index in range(len(dset)):
        # do not add comma after last value
        if index == len(dset)-1: txtfile.write(repr(dset[index]))
        else:                    txtfile.write(repr(dset[index])+',')
txtfile.close()
    return None

有没有更快的方法将其写入文件？也许我可以将数据集转换为 NumPy 数组甚至 Python 列表，然后使用一些文件编写工具？

（我可以在写入文件之前尝试将值连接成一个更大的字符串，但我希望有一些更优雅的东西）

score 5 · Accepted Answer

由于字符串的出色方法，构建大字符串具有节省愚蠢的“最后一次切换”的巨大优势join：替换整个循环，

txtfile.write(','.join(repr(item) for item in dset))

我不确定你要求你的代码有多优雅......;-)

score 3 · Accepted Answer

您最初的怀疑是正确的，首先将其转换为 Numpy 数组，然后将该数组转储为 ASCII。

my_data = my_h5_group['dsetname'].value # is now a Numpy array
my_data.tofile("my_data.txt")

这将比迭代组对象本身快得多。

score 2 · Accepted Answer

也许在 HDF5 文件上使用 h5dump ？

我使用（bash）

(h5dump -y -o /dev/stderr -d $dataset $infile >$errorout) 2>&1 | sed -e 's/, /\n/g' -e 's/,$//' | sed 's/ //g' > $outfile 2> $errorout

score 1 · Accepted Answer

哦，我做同样的事情，我找到了方法。如果你想访问例如这样

print( hdf5['a'][i][j][k] )

这是非常非常非常慢的。这样做。

arr=hdf5[:] # at the out of loop
print( arr[i][j][k] ) # in the loop

只有这种微小的改变才会成功。

python - 将 h5py 数据集输出到文本的快速方法是什么？

4 回答 4

Related

Reference