我正在尝试从镶木地板文件中过滤特定记录。我正在使用 python pyarrow。我设法用熊猫做到了(见下面的代码)。大型镶木地板文件占用大量内存的问题。我正在寻找其他选择 - 有什么想法吗?
谢谢。
df = pq.read_table(INPUT_FILE).to_pandas()
df.query("id not in (%s)" % str(IDS_TO_FILTER)[1:-1], inplace=True)
pq.write_table(pa.Table.from_pandas(df), OUTPUT_FILE)