0

我打算使用 Pandas HDFStore 作为核心 csv 操作的临时文件。

(csv --> HDFStore --> Pandas 中的核心操作)。

就是想 :

  • HDF5 的大小限制,可在 1 台机器上实际使用(不是理论上的......)

  • 数据透视表的操作成本(100 列,固定 VARCHAR,数字)。

  • 我是否需要切换到 Postgres(将 csv 加载到 Postgres)和数据库的东西......

试图在谷歌上找到 HDF5 的一些基准限制大小与计算时间,但找不到任何东西。

csv 的总大小约为 500Go - 1To(未压缩)。

4

0 回答 0