parquet - pyarrow 有没有办法查询 parquet 数据集分区的值？

Question

例如，我有一个如下所示的数据集：

dataset
    ├── a=1
    │    └── 1.parquet
    ├── a=2
    │    └── 2.parquet
    ├── a=3
         └── 3.parquet

并将其加载为dataset = pyarrow.parquet.ParquetDataset('./dataset') 如何在a不将整个数据集读入内存的情况下查询分区“”的可用条目？谢谢~

score 3 · Accepted Answer

见的pieces属性ParquetDataset。each的partition_keys属性ParquetDatasetPiece将为您提供每个分区键的值。如果您对 API 有任何想法可以简化此操作，请在 Apache Arrow 中打开 JIRA 问题。

另请参阅https://issues.apache.org/jira/browse/ARROW-1956关于读取分区数据集的特定部分。

1 回答 1