9

我想知道hdf5是否适合实时数据记录?

更准确地说:我在一个项目中工作,我们希望连续(采样率范围从 30 到 400Hz)混合大量不同性质的数据(几个小时)(遥测、信号、视频)。

数据必须实时(或稍有延迟)写入,以防止我们在潜在的崩溃中丢失它们。

我们的第一个原型是基于sqlite3的,但是我们觉得长期使用可能会出现一些限制:速度,一个数据库==一个文件,以及从多个线程访问数据库的困难(同时读取和写入时锁定异常) )。

因此,我正在考虑将 hdf5 用作磁盘上数据存储的后端(以及用于内部表示的 numpy/pytable)的可能性。您认为可以从这种 python 绑定中定期更新 hdf5 文件吗?

4

1 回答 1

4

HDF5 数据包表适用于实时测量 - 但是您最好使用固定大小的数据包到常规的旧 posix 文件并稍后转换。这是因为 HDF5 目前还不是很健壮,并且不提供使用低级文件 IO 代码所具有的各种保证 - 说低级代码实际上很容易使用。在某些时候,当您使用的数据足够复杂时,应该使用 HDF5,但要注意相对于低级文件 IO,它是重量级的,并且由于其全局互斥锁的使用,不能以合理的确定性/性能进行多线程处理。此外,例如,如果系统崩溃,则生成的 HDF5 文件是垃圾/不可恢复的 - 这将在一天之内得到解决,但需要 HDF 小组的资金来加快并在未来十年内完成它。

我自己的策略是尽可能使用数据包日志文件。然后在记录这些文件后立即将结果转换为 HDF5 以供长期使用 + 压缩 + 供其他工具/程序使用。所说的记录器通常我会在编写时转储一个解释二进制结构的 HDF5 文件,以便稍后我可以简单地读取该文件以了解数据包日志文件中的结构,并在加载数据包后将其交给真正的 HDF 文件在记忆中。

说了这么多,看看boeing 的数据包表 api。它在 hdf5 附带的 hl c++ 库中也有一个害群之马 c++ 绑定,尽管我必须修补它以供我使用。

于 2015-05-01T10:01:08.960 回答