5

Joblib 具有通过自动映射数组来跨进程共享 Numpy 数组的功能。然而,这利用了 Numpy 特定的设施。Pandas 确实在后台使用 Numpy,但除非您的列都具有相同的数据类型,否则您无法真正将 DataFrame 序列化为单个 Numpy 数组。

缓存 DataFrame 以在 Joblib 中重用的“正确”方法是什么?

我最好的猜测是分别对每一列进行内存映射,然后在循环内重建数据框(并祈祷 Pandas 不会复制数据)。但这似乎是一个相当密集的过程。

我知道独立的 Memory 类,但尚不清楚这是否有帮助。

4

0 回答 0