java - 不使用文件的 Hadoop 自定义输入格式

Question

我刚刚开始使用 Hadoop，我正在努力弄清楚如何使用不是文件的其他输入源，即从 AWS SimpleDB 读取所有行，或者从另一个系统上的 REST API 读取所有记录。一切在线仅显示如何处理文件或几个选定的数据库。

InputFormat 的 API 看起来相当复杂，所以我试图找出从任何非文件数据源读取数据的最快方法，然后可以使用 Amazon 的 Elastic MapReduce（基于 Hadoop）对其进行 MapReduce。我正在使用 JAVA 编写代码。

谢谢！

score 3 · Accepted Answer

“最快”的方法是使用一些数据聚合工具，如Flume或Chukwa。你可以在这里找到一个关于如何使用 Twitter API 通过 Flume 收集 Twitter 数据的非常好的示例。它展示了如何使用 Flume 将 twitter 数据读入 Hadoop 集群，然后使用 Hive 对其进行处理。如果需要，您可以编写自己的 MR 作业来执行此操作。尝试为这些事情设计自定义 InputFormat 确实需要一些工作，我认为您不会在这方面找到太多帮助（除非有人已经这样做并准备与您分享）。

高温高压

java - 不使用文件的 Hadoop 自定义输入格式

1 回答 1

Related

Reference