我正在使用 Spark 以 ORC 格式将文件写入 S3。也使用 Athena 来查询这些数据。
我正在使用以下分区键:
s3://bucket/company=1123/date=20190207
一旦我执行 Glue 爬虫在存储桶上运行,除了分区键的类型外,一切都按预期工作。
爬虫在目录中将它们配置为String
类型而不是int
是否有配置来定义分区键的默认类型?
我知道它可以稍后手动更改并将 Crawler 配置设置为Add new columns only.
我正在使用 Spark 以 ORC 格式将文件写入 S3。也使用 Athena 来查询这些数据。
我正在使用以下分区键:
s3://bucket/company=1123/date=20190207
一旦我执行 Glue 爬虫在存储桶上运行,除了分区键的类型外,一切都按预期工作。
爬虫在目录中将它们配置为String
类型而不是int
是否有配置来定义分区键的默认类型?
我知道它可以稍后手动更改并将 Crawler 配置设置为Add new columns only.