我有一台具有 8 GB RAM 和 5 个内核的 Windows 10 机器。
我创建了一个用 gzip 压缩的镶木地板文件。压缩后的文件大小为 137 MB。当我尝试通过 Pandas、dask 和 vaex 读取 parquet 文件时,我遇到了内存问题:
熊猫:
df = pd.read_parquet("C:\\files\\test.parquet")
OSError: Out of memory: realloc of size 3915749376 failed
黎明:
import dask.dataframe as dd
df = dd.read_parquet("C:\\files\\test.parquet").compute()
OSError: Out of memory: realloc of size 3915749376 failed
维克斯:
df = vaex.open("C:\\files\\test.parquet")
OSError: Out of memory: realloc of size 3915749376 failed
由于 Pandas /Python 旨在提高效率,并且 137 mb 文件低于标准大小,是否有任何推荐的方法来创建高效的数据帧?像 Vaex、Dask 这样的库声称非常高效。