我们计划使用 REST API 调用从端点摄取数据并将数据存储到 HDFS。REST 调用以定期方式(每天或每小时)完成。
我已经使用 Flume 完成了 Twitter 摄取,但我认为使用 Flume 不适合我当前的用例,因为我没有在 Twitter 中使用像这样的连续数据 Firehose,而是离散的常规时间限制调用。
我现在的想法是使用自定义 Java 来处理 REST API 调用并保存到 HDFS,然后在该 Java jar 上使用 Oozie 协调器。
我想听听有关设计以及用于此用例的基于 Hadoop 的组件的建议/替代方案(如果有比我现在想的更容易的话)。如果你觉得我可以坚持使用 Flume,那么请给我一个如何做到这一点的想法。