parquet - 如何使用 pyarrow 流式传输镶木地板？

Question

我正在尝试逐个读取大型镶木地板文件数据集，进行一些操作，然后继续进行下一个操作，而不将它们全部保存在内存中。我需要这样做，因为整个数据集不适合内存。以前我使用过ParquetDataset并且我知道RecordBatchStreamReader但我不确定如何将它们结合起来。

我怎样才能使用 Pyarrow 来做到这一点？

score 3 · Accepted Answer

目前，Parquet API 仅支持对单个文件的完整读取，因此我们只能将读取限制在单个文件的粒度。我们想创建一个arrow::RecordBatchReader从 Parquet 文件中读取的（流数据接口）的实现，请参阅https://issues.apache.org/jira/browse/ARROW-1012。补丁将受到欢迎。

parquet - 如何使用 pyarrow 流式传输镶木地板？

1 回答 1

Related

Reference