0

AWS 新手。我需要创建一个每日批处理管道

  1. 阅读 6-10 个 1GB+ CSV 文件。(每个文件都是从 SQL 数据库中提取的表。)
  2. 使用一些逻辑转换每个文件并连接所有文件以为每个 id 创建一个项目。
  3. 使用 upsert 逻辑将此连接数据加载到单个 DynamoDB 表中。

我开始使用的当前方法是:我们有一个可用于此类任务的 EC2。所以我正在编写一个python代码来(1)读取所有CSV,(2)转换为非规范化的JSON文件,(3)使用boto3导入Dynamodb

我的问题是我担心我的数据是否是“大数据”。使用单个 Python 脚本处理 10GB 数据可以吗?如果文件大小变成 10 倍,我会面临缩放问题吗?我过去只使用过 GCP,在这种情况下,我会使用 DataFlow 来完成任务。那么在 AWS 术语中是否存在等价物?如果有人可以提供一些想法,那就太好了。谢谢你的时间。

4

2 回答 2

0

与 Google Cloud Dataflow 等效的 AWS 是AWS Glue。文档不清楚,但Glue 确实会写入 DynamoDB。

于 2020-12-06T20:16:03.010 回答
0

AWS 中更合适的 Dataflow 等效物是Kinesis Data Analytics,它支持 Apache Beam 的 Java SDK

您可以查看在其服务上运行的 Apache Beam 管道示例。

Apache Beam 能够写入 DynamoDB

祝你好运!

于 2020-12-07T15:31:43.513 回答