需要使用 ext .parquet 读取所有镶木地板文件
s3_path = "s3://buckte/table/files.parquet"
df = wr.s3.read_parquet(
path=[s3_path]
)
,但仍然是一个错误:
Error occurred (404) when calling the HeadObject
需要使用 ext .parquet 读取所有镶木地板文件
s3_path = "s3://buckte/table/files.parquet"
df = wr.s3.read_parquet(
path=[s3_path]
)
,但仍然是一个错误:
Error occurred (404) when calling the HeadObject
诀窍是只将一个字符串作为 s3 路径和 path_sufix
s3_path = "s3://buckte/table"
df = wr.s3.read_parquet(
path=s3_path,
path_suffix = ".snappy.parquet" ,
use_threads =True
)
您收到此错误是因为找不到您尝试搜索的文件,或者您尝试读取的位置不存在。
您可以指定要访问的文件的准确(和正确)位置。或者如果你想从一个文件夹中读取所有 parquet 文件,你可以指定文件夹的名称,同时通过 suffix 属性指定扩展名(“.parquet”、“.csv”、“.json”等) .
以下代码有助于读取文件夹“表”中的所有镶木地板文件。
df = wr.s3.read_parquet(
path = "s3://bucket/table/",
path_suffix = ".parquet"
)
如果您想读取存储桶中的所有 parquet 文件,以下代码会有所帮助
df = wr.s3.read_parquet(
path = "s3://bucket/",
path_suffix = ".parquet"
)