1

我想我有一个与此线程中提出的问题类似的问题,但我会尝试更具体...

使用 aws 定期处理数据的最佳方法是什么?例如,我想每分钟处理一次聚合到 S3 中的一些报告。最好的方法是通过一些脚本每分钟向现有作业添加一个步骤?

4

3 回答 3

2

好吧,现在我将编写一个脚本:

  • 从 aws 获取作业流详细信息
  • 如果作业处于等待状态 - 向作业添加新步骤
  • 由于我使用的是 aws PHP AmazonEMR,因此我将添加一些代码来处理最大 256 步的限制(例如,使用相同的参数创建新的作业流程,如果我有超过 200 个步骤,则终止现有的作业流程)。

一旦我准备好代码,我会更新这个线程,稍后我会在看到它在生产中保持几周的情况后更新这个线程

于 2012-05-22T09:04:22.177 回答
1

我会使用引导操作在主节点上安装 cron 作业。

于 2012-06-13T14:43:57.807 回答
0

考虑一下(新的)AWS Lambda 服务。您上传脚本并设置要监控的 S3 存储桶/文件夹。每次将新输入添加到文件夹时都会运行该代码,并根据需要启动 EC2 实例以满足需求。

https://aws.amazon.com/lambda/

于 2014-11-13T22:20:52.357 回答