python - 如何使用 Python pyarrow 从 Parquet 文件中过滤记录

Question

我正在尝试从镶木地板文件中过滤特定记录。我正在使用 python pyarrow。我设法用熊猫做到了（见下面的代码）。大型镶木地板文件占用大量内存的问题。我正在寻找其他选择 - 有什么想法吗？

谢谢。

df = pq.read_table(INPUT_FILE).to_pandas()
df.query("id not in (%s)" % str(IDS_TO_FILTER)[1:-1], inplace=True)
pq.write_table(pa.Table.from_pandas(df), OUTPUT_FILE)

score 0 · Accepted Answer

如果您的镶木地板文件是分区的，那么您可以使用filter关键字参数ParquetDataset按分区过滤。因此，在这种特殊情况下，如果您的镶木地板文件按id.

python - 如何使用 Python pyarrow 从 Parquet 文件中过滤记录

1 回答 1

Related

Reference