我有大约 500 个 HDF5 文件,每个文件大约 1.5 GB。
每个文件都具有相同的精确结构,即 7 个复合(int、double、double)数据集和可变数量的样本。
现在我想通过连接每个数据集来连接所有这些文件,以便最后我有一个 750 GB 的文件和我的 7 个数据集。
目前我正在运行一个 h5py 脚本,它:
- 创建一个具有无限最大值的正确数据集的 HDF5 文件
- 依次打开所有文件
- 检查样本数量是多少(因为它是可变的)
- 调整全局文件的大小
- 追加数据
这显然需要很多小时,你有什么改进的建议吗?
我正在开发一个集群,所以我可以并行使用 HDF5,但是我在C编程方面还不够好,无法自己实现某些东西,我需要一个已经编写好的工具。