我目前正在从事一个需要处理千兆字节科学数据集的项目。数据集采用非常大的整数和浮点数数组(30,000 个元素)的形式。这里的问题是它们太大太适合内存,所以我需要一个磁盘解决方案来存储和使用它们。为了让这个问题更有趣,我被限制使用 32 位架构(因为这是为了工作),我需要尝试最大限度地提高这个解决方案的性能。
到目前为止,我一直在使用 HDF5,它运行良好,但我发现它有点太复杂了,无法使用。所以,我认为下一个最好的办法是尝试 NoSQL 数据库,但我找不到将数组存储在数据库中的好方法,除非将它们转换为字符数组并像这样存储它们,这导致了很多坏指针头疼。
所以,我想知道你们推荐什么。也许您有一种不那么痛苦的方式来使用 HDF5,同时最大限度地提高性能。或者,也许您知道一个 NoSQL 数据库可以很好地存储这种类型的数据。或者也许我在这方面走错了方向,你想给我一些感觉。
无论如何,我很感激你们能给我的任何智慧之言:)