我打算使用 Pandas HDFStore 作为核心 csv 操作的临时文件。
(csv --> HDFStore --> Pandas 中的核心操作)。
就是想 :
HDF5 的大小限制,可在 1 台机器上实际使用(不是理论上的......)
数据透视表的操作成本(100 列,固定 VARCHAR,数字)。
我是否需要切换到 Postgres(将 csv 加载到 Postgres)和数据库的东西......
试图在谷歌上找到 HDF5 的一些基准限制大小与计算时间,但找不到任何东西。
csv 的总大小约为 500Go - 1To(未压缩)。