0

我设置了一个从多个来源接收数据的 AWS Kinesis 流。我想在 EMR 中使用 MapReduce 以多个增量批次处理该数据。

如何在我的工作中指定输入源?是否有任何特定的库来处理 Kinesis 记录?示例代码将不胜感激!

4

1 回答 1

0

为了将 Kinesis 指定为 EMR 的输入,Amazon 为 Hive 和 Pig 提供了一个 JAR 扩展,用于处理迭代和检查点。

对于 Hive,可以在本教程的“运行 Ad-hoc Hive 查询”部分找到示例代码。Pig有一个类似的教程。

于 2015-05-04T09:39:50.630 回答