2

我正在尝试从镶木地板文件中过滤特定记录。我正在使用 python pyarrow。我设法用熊猫做到了(见下面的代码)。大型镶木地板文件占用大量内存的问题。我正在寻找其他选择 - 有什么想法吗?

谢谢。

df = pq.read_table(INPUT_FILE).to_pandas()
df.query("id not in (%s)" % str(IDS_TO_FILTER)[1:-1], inplace=True)
pq.write_table(pa.Table.from_pandas(df), OUTPUT_FILE)
4

1 回答 1

0

如果您的镶木地板文件是分区的,那么您可以使用filter关键字参数ParquetDataset按分区过滤。因此,在这种特殊情况下,如果您的镶木地板文件按id.

于 2018-11-09T07:31:48.107 回答