python - Pandas 和 FastParquet 读取单个分区

Question

我有一个长期运行的工作要读取在美国州具有自然逻辑分区的数据集。我使用 fastparquet（使用 pd.write_parquet）将它保存为 pandas 的分区 parquet 数据集。

我希望我的伙伴能够从创建的 parquet 文件夹中读取单个分区（状态）。read_parquet 没有过滤能力。有什么想法吗？

score 0 · Accepted Answer

尝试使用其中一个dask或parquet阅读器。过滤通过pandas对我有用。

RUN pip install pyarrow
RUN pip install "dask[complete]"

import pyarrow.parquet as pq
import dask.dataframe as dd
import pandas as pd

path = ""
dask_df = dd.read_parquet(path, columns=["col1", "col2"], engine="pyarrow")

dask_filter_df = dask_df[dask_df.col1 == "filter here"]

path = ""
parquet_pandas_df = pq.ParquetDataset(path).read_pandas().to_pandas()

pandas_filter_df = parquet_pandas_df[parquet_pandas_df.col1 == "filter here"]

python - Pandas 和 FastParquet 读取单个分区

1 回答 1

Related

Reference