例如,我有一个如下所示的数据集:
dataset
├── a=1
│ └── 1.parquet
├── a=2
│ └── 2.parquet
├── a=3
└── 3.parquet
并将其加载为dataset = pyarrow.parquet.ParquetDataset('./dataset')
如何在a
不将整个数据集读入内存的情况下查询分区“”的可用条目?谢谢~
见 的pieces
属性ParquetDataset
。each的partition_keys
属性ParquetDatasetPiece
将为您提供每个分区键的值。如果您对 API 有任何想法可以简化此操作,请在 Apache Arrow 中打开 JIRA 问题。
另请参阅https://issues.apache.org/jira/browse/ARROW-1956关于读取分区数据集的特定部分。