我在 AWS s3 中有 2.2 亿个原始文件,我正在考虑将它们合并到一个估计大约 10 TB 的文件中。合并文件将用作事实表,但文件格式用于审计报告。
原始文件是来自应用程序的源数据。如果应用程序有任何新的数据更改,文件的包含将被更改。
我想问一下是否有人遇到过这个用户案例的端到端流程?
s3--> ETL(文件合并)--> s3 --> 报告(tableau)
我在 AWS s3 中有 2.2 亿个原始文件,我正在考虑将它们合并到一个估计大约 10 TB 的文件中。合并文件将用作事实表,但文件格式用于审计报告。
原始文件是来自应用程序的源数据。如果应用程序有任何新的数据更改,文件的包含将被更改。
我想问一下是否有人遇到过这个用户案例的端到端流程?
s3--> ETL(文件合并)--> s3 --> 报告(tableau)
我没有亲自尝试过,但这就是 Athena 的用途......跳过您的 ETL 过程,并直接从文件中查询。您是否有理由将这一切都转储到一个文件中而不是保持分散?一遍又一遍地重写一个 10TB 的文件非常昂贵且耗时……我个人至少会调查将文件 1-1 与源文件保持一致。