AWS 新手。我需要创建一个每日批处理管道
- 阅读 6-10 个 1GB+ CSV 文件。(每个文件都是从 SQL 数据库中提取的表。)
- 使用一些逻辑转换每个文件并连接所有文件以为每个 id 创建一个项目。
- 使用 upsert 逻辑将此连接数据加载到单个 DynamoDB 表中。
我开始使用的当前方法是:我们有一个可用于此类任务的 EC2。所以我正在编写一个python代码来(1)读取所有CSV,(2)转换为非规范化的JSON文件,(3)使用boto3导入Dynamodb
我的问题是我担心我的数据是否是“大数据”。使用单个 Python 脚本处理 10GB 数据可以吗?如果文件大小变成 10 倍,我会面临缩放问题吗?我过去只使用过 GCP,在这种情况下,我会使用 DataFlow 来完成任务。那么在 AWS 术语中是否存在等价物?如果有人可以提供一些想法,那就太好了。谢谢你的时间。