1

我正在开发一个 ETL 管道,以使用 AWS Glue 批处理作业将 JSON 文件转换为 Parquet 格式(存储成本),然后使用 RedShift 外部表使用 Parquet 文件查询 S3 存储桶。

我的障碍是如何处理 Parquet 文件的多个版本,以便外部表查询最新版本的 Parquet 文件或强制 AWS Glue 覆盖 Parquet 文件并始终保持最新版本。

-------------------------------------------------- -------------------------------------------------- ----------------
| 天 | JSON (S3) | JSON 版本 |镶木地板 (S3) | 外表查询数据 |
-------------------------------------------------- -------------------------------------------------- ----------------
| 1 | temp.json | 1.0 |part-00000-9n83b353-c000.snappy.parquet| 计数 1,包括 Parquet 即 1.0 |
-------------------------------------------------- -------------------------------------------------- ----------------
| 2 | temp.json | 2.0 |part-00000-7s34s653-c000.snappy.parquet| 计数 2,包括 Parquet 1.0 和 2.0 两个版本|
-------------------------------------------------- -------------------------------------------------- ----------------

作为一项服务,S3-AWSGlue-Redshift Spectrum 符合我的实施方案,但希望对如何处理版本控制问题提出建议。

4

0 回答 0