对于一个项目,我必须处理 30 GB 的数据集。我可以使用一个非常强大的超级计算机,它可以让我将所有数据集存储在 RAM 内存中以进行计算(我需要整个数据集来实现我必须实现的一些算法)。问题是加载数据集仍然很慢。
我想请你提供实用的建议来加快这个过程。我的想法是将加载过程划分为 C++11 显式线程,这些线程将根据线程索引加载单独的数据块。我也听说过 STXXL 库,但它似乎处理核外计算,因此没有在 RAM 上加载数据(我想避免这种情况,因为我有必要的 RAM——我想我可能会得到通过在其上加载数据集可以更快地获得结果)。