1

我研究过几个规模相当小的遗留 HDF5 数据库,每个数据库都利用分组来执行查找。例如,作为一个人为的例子,假设我有一个二维数据集,其中每个单元格映射回一个组,该组可以存储另一个数据集,该数据集保存与原始数据集中包含的 ID 对应的数据。这很好,但一个项目基本上在关系数据库类型系统中使用 hdf5。(数据集包含要打开的组的值-> 组包含告诉我要打开的数据集名称的属性-> 最终获取数据)

由于 hdf5 具有内置压缩功能,因此存储冗余数据(例如复合数据类型)会带来更多收益。

当然,这取决于数据的要求/复杂性,但总的来说,在 HDF5 中存储冗余数据是不好的做法吗?

4

0 回答 0