0

我正在尝试使用 AWS EMR 上的猪脚本批处理运动流中的一些数据。我只需要将流数据分组并将其移动到 s3。我试图每隔几个小时运行一次。起初,它似乎非常适合 AWS Data Pipeline,但我不知道如何传入迭代编号以用于 kinesis 检查点。看起来没有任何方法可以增加一个数字以传递给 pig 脚本。我在这里看到了这个例子,它涉及一个永远在线的集群和一个 crontab 脚本,它增加了迭代次数。有没有办法使用我缺少的 AWS Data Pipeline 来实现这一点?

4

1 回答 1

1

我们确实有一个使用 Data Pipeline 来完成您想要的事情的示例,但它使用 Hive 而不是 Pig。这可能足以给你一个想法,让你走上正确的道路。

https://github.com/awslabs/data-pipeline-samples/tree/master/samples/kinesis

如果此示例仍未回答您的问题,请告知我们,以便我们可以考虑创建另一个示例来解决您的用例。

于 2015-08-17T21:21:47.593 回答