python - 如何将整个工作区保存在 pandas 中（如 RData）

Question

从 R 的 pandas 开始。我们对 R 的生产用途是将大量数据作为 .RData（通过 save_image）保存到磁盘，并在下次加载工作区时使用。似乎没有真正的解决方案可以将整个 pandas 工作区保存到磁盘。

有莳萝，但看起来不值得生产。这是 Pandas/Numpy 的反模式吗？我认为应该有类似 HDF5（或最近宣布的 Apache Arrow）之类的东西来快照运行状态。

请注意，我不是在谈论休眠 - 我只是在这里指的是数据结构，而不是代码的运行状态或类似的东西。

此外关于 IRC 的讨论提到：

您可以使用 hdf5，但在这种情况下，始终在使用它之前对其进行往返，即使它刚刚被计算 - 不幸的是，to_hdf/read_hdf 不一定会给您您开始使用的数据帧
pickle 是不可调试的、非版本兼容的、仅限 Python 的、不安全的、非序列化的以及可能不正确的给定数据

所以无论哪种方式都不好？

score 0 · Accepted Answer

您可以将整个脚本放在一个类中，然后使用pickle序列化和反序列化该对象。它可能与 R 中的工作空间实例不完全一样，但它是我现在能想到的最接近的东西。

1 回答 1