我有一个包含小镶木地板文件(600)的目录,我想在这些镶木地板上进行 ETL 并将这些镶木地板合并到每个文件 128mb。什么是处理数据的最佳方式。
我应该读取 parquet 目录中的每个文件并将 concat 作为单个数据框并执行 groupBY 吗?或者向 dd.read_parquet 提供 parquet 目录名称并进行处理?
我觉得,当我逐个文件读取文件时,它会创建一个非常大的 dask 图,无法作为图像拟合。我想它也适用于这么多线程?这会导致内存错误。
哪种方式最好读取镶木地板文件以作为 dask 数据帧处理?逐个文件或提供整个目录??