0

从 R 的 pandas 开始。我们对 R 的生产用途是将大量数据作为 .RData(通过 save_image)保存到磁盘,并在下次加载工作区时使用。似乎没有真正的解决方案可以将整个 pandas 工作区保存到磁盘。

有莳萝,但看起来不值得生产。这是 Pandas/Numpy 的反模式吗?我认为应该有类似 HDF5(或最近宣布的 Apache Arrow)之类的东西来快照运行状态。

请注意,我不是在谈论休眠 - 我只是在这里指的是数据结构,而不是代码的运行状态或类似的东西。

此外关于 IRC 的讨论提到:

  • 您可以使用 hdf5,但在这种情况下,始终在使用它之前对其进行往返,即使它刚刚被计算 - 不幸的是,to_hdf/read_hdf 不一定会给您您开始使用的数据帧
  • pickle 是不可调试的、非版本兼容的、仅限 Python 的、不安全的、非序列化的以及可能不正确的给定数据

所以无论哪种方式都不好?

4

1 回答 1

0

您可以将整个脚本放在一个类中,然后使用pickle序列化和反序列化该对象。它可能与 R 中的工作空间实例不完全一样,但它是我现在能想到的最接近的东西。

于 2016-02-17T19:15:52.600 回答