python - 在 joblib 中缓存数据框

翻译自：https://stackoverflow.com/questions/54565655 2019-02-07T02:59:01.287

438 次

Joblib 具有通过自动映射数组来跨进程共享 Numpy 数组的功能。然而，这利用了 Numpy 特定的设施。Pandas 确实在后台使用 Numpy，但除非您的列都具有相同的数据类型，否则您无法真正将 DataFrame 序列化为单个 Numpy 数组。

缓存 DataFrame 以在 Joblib 中重用的“正确”方法是什么？

我最好的猜测是分别对每一列进行内存映射，然后在循环内重建数据框（并祈祷 Pandas 不会复制数据）。但这似乎是一个相当密集的过程。

我知道独立的 Memory 类，但尚不清楚这是否有帮助。

0 回答 0