0

我在 AWS s3 中有 2.2 亿个原始文件,我正在考虑将它们合并到一个估计大约 10 TB 的文件中。合并文件将用作事实表,但文件格式用于审计报告。

原始文件是来自应用程序的源数据。如果应用程序有任何新的数据更改,文件的包含将被更改。

我想问一下是否有人遇到过这个用户案例的端到端流程?

s3--> ETL(文件合并)--> s3 --> 报告(tableau)

4

1 回答 1

4

我没有亲自尝试过,但这就是 Athena 的用途......跳过您的 ETL 过程,并直接从文件中查询。您是否有理由将这一切都转储到一个文件中而不是保持分散?一遍又一遍地重写一个 10TB 的文件非常昂贵且耗时……我个人至少会调查将文件 1-1 与源文件保持一致。

  1. 创建在 s3 上重写文件时触发的 s3 触发器
  2. 创建一个 Lambda,在 s3 上创建您的“审计就绪”报告文件
  3. 使用AWS Athena查询这些报告文件
  4. 用于报告的 Athena 的 Tableau 连接器
于 2019-07-03T14:51:37.407 回答