我正在尝试找到使用 Python/Pandas 有效地将大型数据帧 (250MB+) 写入磁盘和从磁盘写入的最佳方法。我已经尝试了Python for Data Analysis中的所有方法,但性能非常令人失望。
这是探索将我们当前的分析/数据管理环境从 Stata 迁移到 Python 的更大项目的一部分。当我将测试中的读/写时间与我在 Stata 中获得的时间进行比较时,Python 和 Pandas 通常需要 20 倍以上的时间。
我强烈怀疑我是问题所在,而不是 Python 或 Pandas。
有什么建议么?