amazon-emr - 使用 aws emr 定期处理数据

Question

我想我有一个与此线程中提出的问题类似的问题，但我会尝试更具体...

使用 aws 定期处理数据的最佳方法是什么？例如，我想每分钟处理一次聚合到 S3 中的一些报告。最好的方法是通过一些脚本每分钟向现有作业添加一个步骤？

score 2 · Accepted Answer

好吧，现在我将编写一个脚本：

从 aws 获取作业流详细信息
如果作业处于等待状态 - 向作业添加新步骤
由于我使用的是 aws PHP AmazonEMR，因此我将添加一些代码来处理最大 256 步的限制（例如，使用相同的参数创建新的作业流程，如果我有超过 200 个步骤，则终止现有的作业流程）。

一旦我准备好代码，我会更新这个线程，稍后我会在看到它在生产中保持几周的情况后更新这个线程

score 1 · Accepted Answer

1

我会使用引导操作在主节点上安装 cron 作业。

于 2012-06-13T14:43:57.807 回答

score 0 · Accepted Answer

考虑一下（新的）AWS Lambda 服务。您上传脚本并设置要监控的 S3 存储桶/文件夹。每次将新输入添加到文件夹时都会运行该代码，并根据需要启动 EC2 实例以满足需求。

3 回答 3