Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我想使用 Hadoop 处理每 n 分钟生成的输入文件。我应该如何解决这个问题?例如,我每 10 分钟收到一次美国城市的温度测量值,我想计算每周和每月每天的平均温度。
PS:到目前为止,我已经考虑使用 Apache Flume 来获取读数。它将从多个服务器获取数据并定期将数据写入 HDFS。从那里我可以阅读和处理它们。
但是我怎样才能避免一次又一次地处理相同的文件呢?
您应该考虑像 Storm 这样的大数据流处理平台(我非常熟悉,不过还有其他平台),它可能更适合您提到的聚合和指标类型。
但是,无论哪种方式,您都将实现某种形式,该形式具有整个处理数据集的形式,可以很容易地应用刚刚收集的数据的增量来为您提供最新的指标。此合并的另一个输出是一组新数据,您将在其中应用下一小时的数据。等等。