5

我正在尝试找到使用 Python/Pandas 有效地将大型数据帧 (250MB+) 写入磁盘和从磁盘写入的最佳方法。我已经尝试了Python for Data Analysis中的所有方法,但性能非常令人失望。

这是探索将我们当前的分析/数据管理环境从 Stata 迁移到 Python 的更大项目的一部分。当我将测试中的读/写时间与我在 Stata 中获得的时间进行比较时,Python 和 Pandas 通常需要 20 倍以上的时间。

我强烈怀疑我是问题所在,而不是 Python 或 Pandas。

有什么建议么?

4

1 回答 1

9

使用HDFStore是你最好的选择(书中没有详细介绍,并且变化很大)。您会发现性能比任何其他序列化方法都要好得多。

于 2013-10-28T16:08:24.553 回答