python-3.x - 转换文件后加载 DynamoDB 数据。任何 AWS 服务，例如 GCP Dataflow/Apache Beam？

Question

AWS 新手。我需要创建一个每日批处理管道

阅读 6-10 个 1GB+ CSV 文件。（每个文件都是从 SQL 数据库中提取的表。）
使用一些逻辑转换每个文件并连接所有文件以为每个 id 创建一个项目。
使用 upsert 逻辑将此连接数据加载到单个 DynamoDB 表中。

我开始使用的当前方法是：我们有一个可用于此类任务的 EC2。所以我正在编写一个python代码来（1）读取所有CSV，（2）转换为非规范化的JSON文件，（3）使用boto3导入Dynamodb

我的问题是我担心我的数据是否是“大数据”。使用单个 Python 脚本处理 10GB 数据可以吗？如果文件大小变成 10 倍，我会面临缩放问题吗？我过去只使用过 GCP，在这种情况下，我会使用 DataFlow 来完成任务。那么在 AWS 术语中是否存在等价物？如果有人可以提供一些想法，那就太好了。谢谢你的时间。

score 0 · Accepted Answer

与 Google Cloud Dataflow 等效的 AWS 是AWS Glue。文档不清楚，但Glue 确实会写入 DynamoDB。

score 0 · Accepted Answer

AWS 中更合适的 Dataflow 等效物是Kinesis Data Analytics，它支持 Apache Beam 的 Java SDK。

您可以查看在其服务上运行的 Apache Beam 管道示例。

Apache Beam 能够写入 DynamoDB。

祝你好运！

python-3.x - 转换文件后加载 DynamoDB 数据。任何 AWS 服务，例如 GCP Dataflow/Apache Beam？

2 回答 2

Related

Reference