amazon-s3 - AWS Glue 爬虫 - 分区键类型

Question

我正在使用 Spark 以 ORC 格式将文件写入 S3。也使用 Athena 来查询这些数据。

我正在使用以下分区键：

s3://bucket/company=1123/date=20190207

一旦我执行 Glue 爬虫在存储桶上运行，除了分区键的类型外，一切都按预期工作。

爬虫在目录中将它们配置为String类型而不是int

是否有配置来定义分区键的默认类型？

我知道它可以稍后手动更改并将 Crawler 配置设置为Add new columns only.

score 9 · Accepted Answer

Glue crawlers 总是将分区键视为字符串类型，不幸的是，没有可用于更改此行为的配置选项。

1 回答 1