python - 哪种方式最好读取镶木地板文件以作为 dask 数据帧处理

Question

我有一个包含小镶木地板文件（600）的目录，我想在这些镶木地板上进行 ETL 并将这些镶木地板合并到每个文件 128mb。什么是处理数据的最佳方式。

我应该读取 parquet 目录中的每个文件并将 concat 作为单个数据框并执行 groupBY 吗？或者向 dd.read_parquet 提供 parquet 目录名称并进行处理？

我觉得，当我逐个文件读取文件时，它会创建一个非常大的 dask 图，无法作为图像拟合。我想它也适用于这么多线程？这会导致内存错误。

哪种方式最好读取镶木地板文件以作为 dask 数据帧处理？逐个文件或提供整个目录？？

score 0 · Accepted Answer

不幸的是，没有一种最佳方法可以在所有情况下读取 Parquet 文件。为了正确回答问题，您需要更多地了解您的情况。

1 回答 1