Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我设置了一个从多个来源接收数据的 AWS Kinesis 流。我想在 EMR 中使用 MapReduce 以多个增量批次处理该数据。
如何在我的工作中指定输入源?是否有任何特定的库来处理 Kinesis 记录?示例代码将不胜感激!
为了将 Kinesis 指定为 EMR 的输入,Amazon 为 Hive 和 Pig 提供了一个 JAR 扩展,用于处理迭代和检查点。
对于 Hive,可以在本教程的“运行 Ad-hoc Hive 查询”部分找到示例代码。Pig有一个类似的教程。