我有一个数据源一直在生成大量数据,我定期将这些数据放入我的 hadoop 集群。
我想每 X 分钟分析一次这些数据,但我不想每次都对所有数据执行分析,只想花最后 X 分钟进行分析......
我正在将数据实时发送到 hbase,获取最后 x 分钟并对这些数据执行 mr 作业的最佳方法是什么?
您是否考虑过使用OOZIE?这是一个工作流协调系统。它有一个协调器的概念,您可以将其配置为定期运行 Map Reduce 作业。
然后,您可以使用它来运行使用 HBase 作为输入的 M/R 作业。