python - 如何使用 PyArrow 从 s3 读取定义的镶木地板文件列表？

Question

我需要从存储在 s3 中的 Parquet 文件中将数据增量加载到 Pandas，我正在尝试使用 PyArrow 但没有任何运气。

将 Parquet 文件的整个目录写入 Pandas 就可以了：

import s3fs
import pyarrow.parquet as pq
import pandas as pd

fs = s3fs.S3FileSystem(mykey,mysecret)
p_dataset = pq.ParquetDataset('s3://mys3bucket/directory', filesystem=fs)

df = p_dataset.read().to_pandas()

但是，当我尝试加载单个 Parquet 文件时，出现错误：

fs = s3fs.S3FileSystem(mykey,mysecret)
p_dataset = pq.ParquetDataset('s3://mys3bucket/directory/1_0_00000000000000014012'
, filesystem=fs)

df = p_dataset.read().to_pandas()

抛出错误：

    ---------------------------------------------------------------------------
IndexError                                Traceback (most recent call last)
<ipython-input-179-3d01b32c60f7> in <module>()
     15 p_dataset = pq.ParquetDataset(
     16     's3://mys3bucket/directory/1_0_00000000000000014012',
---> 17                       filesystem=fs)
     18 
     19 table2.to_pandas()

C:\User\Anaconda3\lib\site-packages\pyarrow\parquet.py in __init__(self, path_or_paths, filesystem, schema, metadata, split_row_groups, validate_schema, filters, metadata_nthreads)
    880 
    881         if validate_schema:
--> 882             self.validate_schemas()
    883 
    884         if filters is not None:

C:\User\Anaconda3\lib\site-packages\pyarrow\parquet.py in validate_schemas(self)
    893                 self.schema = self.common_metadata.schema
    894             else:
--> 895                 self.schema = self.pieces[0].get_metadata(open_file).schema
    896         elif self.schema is None:
    897             self.schema = self.metadata.schema

IndexError: list index out of range

感谢您对此错误的任何帮助。

理想情况下，我需要将添加到 s3 的所有新数据（自上次运行此脚本以来添加）附加到 Pandas 数据帧，所以我想我将文件名列表传递给 ParquetDataset。有没有更好的方法来实现这一目标？谢谢

score 1 · Accepted Answer

您想使用pq.read_table（传递文件路径或文件句柄）而不是pq.ParquetDataset（传递目录）。高温高压

score 0 · Accepted Answer

对于 python 3.6+，AWS 有一个名为aws-data-wrangler的库，它有助于 Pandas/S3/Parquet 之间的集成

安装做；

pip install awswrangler

使用 awswrangler 1.xx 及更高版本从 s3 读取单个 parquet 文件，执行；

import awswrangler as wr
df = wr.s3.read_parquet(path="s3://my_bucket/path/to/data_folder/my-file.parquet")

要读取镶木地板文件列表，请执行；

import awswrangler as wr
df = wr.s3.read_parquet(path="s3://my_bucket/path/to/data_folder/", dataset=True)

通过设置 dataset=True，awswrangler 将读取 s3 键下的所有单个 parquet 文件。

python - 如何使用 PyArrow 从 s3 读取定义的镶木地板文件列表？

2 回答 2

Related

Reference