在维基百科上,人们可以阅读以下关于 HDF5 的批评:
对 HDF5 的批评源于其单一的设计和冗长的规范。虽然是一个 150 页的开放标准,但 HDF5 只有一个 C 实现,这意味着所有绑定都共享其错误和性能问题。再加上缺乏日志,当前稳定版本中记录 的错误能够破坏整个 HDF5 数据库。尽管 1.10-alpha 添加了日志,但它与以前的版本向后不兼容。HDF5 也不能很好地支持 UTF-8,在大多数地方都需要 ASCII。此外,即使在最新的草案中,数组数据也永远无法删除。
我想知道这是否仅适用于 HDF5 的 C 实现,或者这是否是 HDF5 的一般缺陷?
我正在做科学实验,有时会产生千兆字节的数据,在所有情况下至少会产生数百兆字节的数据。显然,数据丢失,尤其是损坏对我来说是一个巨大的劣势。
我的脚本总是有一个Python API,因此我正在使用h5py
(版本 2.5.0)。
那么,这种批评与我有关吗?我应该担心数据损坏吗?