11

我正在使用 Spark 以 ORC 格式将文件写入 S3。也使用 Athena 来查询这些数据。

我正在使用以下分区键:

s3://bucket/company=1123/date=20190207

一旦我执行 Glue 爬虫在存储桶上运行,除了分区键的类型外,一切都按预期工作。

爬虫在目录中将它们配置为String类型而不是int

是否有配置来定义分区键的默认类型?

我知道它可以稍后手动更改并将 Crawler 配置设置为Add new columns only.

4

1 回答 1

9

Glue crawlers 总是将分区键视为字符串类型,不幸的是,没有可用于更改此行为的配置选项。

于 2019-08-15T11:19:37.217 回答