1

我正在为大型网格数据集寻找一种好的存储格式。该应用程序是气象学,我们更喜欢该领域中常见的格式(以帮助与他人交换数据)。我不需要处理特殊的数据结构,应该有 Fortran API。我目前正在考虑 HDF5、GRIB2 和 NetCDF4。

这些格式在数据压缩方面如何比较?他们的主要局限是什么?学习曲线有多陡峭?还有其他值得研究的存储格式吗?

我没有找到大量概述这些格式的差异和优缺点的材料(有一个相关的SO 线程,以及比较 GRIB 和 NetCDF的演示文稿)。

4

2 回答 2

3

抱歉,我不在气象学领域,但在我看来,科学界正在向 HDF5 迈进,例如,参见 NERSC 页面:

http://www.nersc.gov/users/training/online-tutorials/introduction-to-scientific-io/

我不得不对天体物理学数据采取相同的选择,因为我们过去一直使用 FITS,而且我发现开始使用 HDF5 很容易,因为不仅有 fortran 和 C 的 API,还有 C++ 的 API,还有一个 python 包 (h5py)。

于 2011-07-06T10:20:04.863 回答
3

我当然会考虑 HDF5,因为它似乎是科学界的趋势。

此外,HDF5 具有内置过滤器(包括压缩过滤器),您也可以自己编写。

最后看一下 HDF5“分块”数据集,因为如果您有网格数据集,它们可能会非常有用。

http://www.hdfgroup.org/

于 2011-07-11T10:10:48.647 回答