dask - 如何使用 dask/dask-cudf 将单个大型 parquet 文件读入多个分区？

Question

我正在尝试使用/读取单个大parquet文件（大小> gpu_size），但它当前正在将其读入单个分区，我猜这是从文档字符串推断的预期行为：dask_cudfdask

dask.dataframe.read_parquet(path, columns=None, filters=None, categories=None, index=None, storage_options=None, engine='auto', gather_statistics=None, **kwargs):

    Read a Parquet file into a Dask DataFrame
    This reads a directory of Parquet data into a Dask.dataframe, one file per partition. 
    It selects the index among the sorted columns if any exist.

有没有一种解决方法我可以将它读入多个分区？

score 1 · Accepted Answer

Parquet 数据集可以保存到单独的文件中。每个文件可能包含单独的行组。Dask Dataframe 将每个 Parquet 行组读入一个单独的分区。

根据您所说的，听起来您的数据集只有一个行组。如果是这样的话，那么不幸的是，Dask 在这里真的无能为力。

您可能希望返回数据源以查看它是如何保存的，并验证保存此数据集的任何过程是否以不会创建非常大的行组的方式进行。

dask - 如何使用 dask/dask-cudf 将单个大型 parquet 文件读入多个分区？

1 回答 1

Related

Reference