从 R 的 pandas 开始。我们对 R 的生产用途是将大量数据作为 .RData(通过 save_image)保存到磁盘,并在下次加载工作区时使用。似乎没有真正的解决方案可以将整个 pandas 工作区保存到磁盘。
有莳萝,但看起来不值得生产。这是 Pandas/Numpy 的反模式吗?我认为应该有类似 HDF5(或最近宣布的 Apache Arrow)之类的东西来快照运行状态。
请注意,我不是在谈论休眠 - 我只是在这里指的是数据结构,而不是代码的运行状态或类似的东西。
此外关于 IRC 的讨论提到:
- 您可以使用 hdf5,但在这种情况下,始终在使用它之前对其进行往返,即使它刚刚被计算 - 不幸的是,to_hdf/read_hdf 不一定会给您您开始使用的数据帧
- pickle 是不可调试的、非版本兼容的、仅限 Python 的、不安全的、非序列化的以及可能不正确的给定数据
所以无论哪种方式都不好?