0

我需要读取上传到 s3 存储桶的 csv 批处理文件,加密某些列中的数据并将这些数据保存在 Dynamo DB 表中。在持久化 DynamoDB 表中的每一行时,根据每行中的数据,我需要生成一个 ID 并将其也存储在 DynamoDB 表中。似乎 AWS 数据管道允许创建将 S3 存储桶文件导入 DynanoDB 的作业,但我找不到一种方法来在那里添加自定义逻辑来加密文件中的某些列值并添加自定义逻辑来生成 id上文提到的。

有什么方法可以使用 AWS Data Pipeline 实现这一要求?如果不是,我可以采用 AWS 服务的最佳方法是什么?

4

1 回答 1

0

我们还有一种情况,我们需要从 S3 获取数据并在执行一些转换(业务逻辑)后将其填充到 DynamoDb。

我们还将 AWS DataPipeline 用于此过程。

我们首先从 Data Pipeline 触发 EMR 集群,从 S3 获取数据,然后对其进行转换并填充 DynamoDB(DDB)。您可以在 EMR 集群中包含您需要的所有逻辑。

我们在管道中设置了一个计时器,它每天触发一次 EMR 集群以执行任务。

这也可能产生额外的费用。

于 2021-03-21T15:21:57.603 回答