java - 使用 AWS Kinesis 作为 EMR MapReduce 作业的数据源

Question

我设置了一个从多个来源接收数据的 AWS Kinesis 流。我想在 EMR 中使用 MapReduce 以多个增量批次处理该数据。

如何在我的工作中指定输入源？是否有任何特定的库来处理 Kinesis 记录？示例代码将不胜感激！

score 0 · Accepted Answer

为了将 Kinesis 指定为 EMR 的输入，Amazon 为 Hive 和 Pig 提供了一个 JAR 扩展，用于处理迭代和检查点。

对于 Hive，可以在本教程的“运行 Ad-hoc Hive 查询”部分找到示例代码。Pig有一个类似的教程。

1 回答 1