0

我有一个数据源一直在生成大量数据,我定期将这些数据放入我的 hadoop 集群。

我想每 X 分钟分析一次这些数据,但我不想每次都对所有数据执行分析,只想花最后 X 分钟进行分析......

我正在将数据实时发送到 hbase,获取最后 x 分钟并对这些数据执行 mr 作业的最佳方法是什么?

4

1 回答 1

1

您是否考虑过使用OOZIE?这是一个工作流协调系统。它有一个协调器的概念,您可以将其配置为定期运行 Map Reduce 作业。

然后,您可以使用它来运行使用 HBase 作为输入的 M/R 作业。

于 2012-06-18T13:23:11.020 回答