我正在创建和处理一个非常大的数据集,其中包含大约 3400 万个数据点,并且我目前将它们存储在内存中的 python 字典中(大约 22,500 个字典,每个 1588 个类实例中有 15 个字典)。虽然我能够在内存中管理这一切,但我正在用完我的所有 RAM 和大部分交换空间。
我需要能够首先生成所有这些数据,然后一次对其中的选定部分进行分析。从效率的角度来看,将其中一些数据写入文件或将其存储在数据库中是否有益?或者我是否最好只是降低使用我的交换空间带来的效率。如果我应该写入文件/数据库,是否有任何 Python 工具可以推荐这样做?