15

我需要以某种方式在磁盘上存储一个 512^3 数组,我目前正在使用 HDF5。由于阵列稀疏,因此浪费了大量磁盘空间。

HDF5 是否提供对稀疏数组的任何支持?

4

3 回答 3

17

一种解决方法是使用compression选项创建数据集。例如,在 Python 中使用h5py

import h5py
f = h5py.File('my.h5', 'w')
d = f.create_dataset('a', dtype='f', shape=(512, 512, 512), fillvalue=-999.,
                     compression='gzip', compression_opts=9)
d[3, 4, 5] = 6
f.close()

生成的文件为 4.5 KB。如果没有压缩,这个相同的文件大约为 512 MB。这是 99.999% 的压缩率,因为大多数数据都是-999.(或任何fillvalue你想要的)。


可以使用 C++ HDF5 API 通过将H5::DSetCreatPropList::setDeflate设置为 9 来实现等价,示例显示在h5group.cpp中。

于 2014-09-05T04:07:52.087 回答
3

分块数据集 (H5D_CHUNKED) 允许稀疏存储,但根据您的数据,开销可能很重要。

取一个典型的数组,尝试稀疏和非稀疏,然后比较文件大小,然后你会看到它是否真的值得。

于 2011-02-18T02:08:21.897 回答
1

HDF5 提供索引存储:http ://www.hdfgroup.org/HDF5/doc/TechNotes/RawDStorage.html

于 2011-02-17T21:07:46.407 回答