我目前使用 AWS S3 作为数据湖来存储原始数据,每分钟向指定存储桶添加大约 100 个项目。我知道数据管道和数据 ETL 概念的基础知识,但我仍然不熟悉基础知识,例如 Apache Spark 是什么,或者 AWS Glue 的具体工作原理。
我愿意尝试所有教程并为自己学习,但我不知道从哪里开始。如果可以的话,请指导我从哪里开始执行以下任务。
- 每当将新对象添加到 S3 存储桶时,转换它们并将它们存储在另一个数据存储中。
- 如果要以大型 CSV 格式管理生成的转换项目(我猜是 DynamoDB,因为它是表数据?),那么在哪里存储转换后的项目。
- 低级解决方案和高级解决方案将如何处理这些任务?(例如,使用 Spark 与 Glue)
谢谢!