我有一个数据湖AWS S3
。数据格式为Parquet
。每日工作量约为 70G。我想在这些数据之上构建一些临时分析。为此,我看到了 2 个选项:
- 用于
AWS Athena
通过 HiveQL 请求数据以通过AWS Glue
(Data Catalog) 获取数据。 - 将数据从 S3 移动到作为数据仓库的 Redshift 并查询 Redshift 以执行临时分析。
在我的情况下,进行 ah-hoc 分析的最佳方法是什么?有没有更有效的方法?上述选项的优缺点是什么?
附言
6 个月后,我要将数据从 S3 移动到 Amazon Glacier,以便在 S3/Redshift 中查询的最大数据量约为 13T