1

我有一个以镶木地板格式存储在 AWS S3 中的 500 多个表的列表。结构如下:

aws-bucket/
└── parquet/
    └── table1/t1.parquet
    └── table2/t2.parquet
    └── table3/t3.parquet
    └── table4/t4.parquet
    └── table5/t5.parquet
    └── table6/t6.parquet
    └── table7/t7.parquet
    └── table8/t8.parquet

当我在“s3://aws-bucket/parquet/”上运行 Glue Crawler 并尝试创建 Athena DB 时,它只创建一个名为 parquet 的表,而不是创建所有 500 多个表。我没有尝试对爬虫参数进行任何自定义。

请帮忙。

4

1 回答 1

0

检查https://docs.aws.amazon.com/glue/latest/dg/crawler-configuration.html?icmpid=docs_glue_console#crawler-grouping-policy

S3 数据的分组行为(可选)

为每个 S3 路径创建一个架构

默认情况下,当爬虫为存储在 S3 中的数据定义表时,它会同时考虑数据兼容性和架构相似性。选中此复选框可将兼容模式分组到提供的包含路径下所有 S3 对象的单个表定义中。仍将考虑其他标准来确定适当的分组。

在胶水爬虫控制台中选中此选项。它将创建 500 多个表

于 2019-08-20T16:47:45.523 回答