我有一个长期运行的工作要读取在美国州具有自然逻辑分区的数据集。我使用 fastparquet(使用 pd.write_parquet)将它保存为 pandas 的分区 parquet 数据集。
我希望我的伙伴能够从创建的 parquet 文件夹中读取单个分区(状态)。read_parquet 没有过滤能力。有什么想法吗?
我有一个长期运行的工作要读取在美国州具有自然逻辑分区的数据集。我使用 fastparquet(使用 pd.write_parquet)将它保存为 pandas 的分区 parquet 数据集。
我希望我的伙伴能够从创建的 parquet 文件夹中读取单个分区(状态)。read_parquet 没有过滤能力。有什么想法吗?
尝试使用其中一个dask
或parquet
阅读器。过滤通过pandas
对我有用。
如何在 Python 中使用 pyarrow 读取带有条件的镶木地板文件
RUN pip install pyarrow
RUN pip install "dask[complete]"
import pyarrow.parquet as pq
import dask.dataframe as dd
import pandas as pd
path = ""
dask_df = dd.read_parquet(path, columns=["col1", "col2"], engine="pyarrow")
dask_filter_df = dask_df[dask_df.col1 == "filter here"]
path = ""
parquet_pandas_df = pq.ParquetDataset(path).read_pandas().to_pandas()
pandas_filter_df = parquet_pandas_df[parquet_pandas_df.col1 == "filter here"]