我是mapreduce和hadoop的新手。我阅读了mapreduce的示例和设计模式......
好的,我们可以说到点子上了。我们正在开发一个软件,它可以监控系统并定期捕获它们的 cpu 使用情况,例如每 5 秒。我们绘制了一系列时间段的系统使用情况图,例如过去 12 小时、上周等的 cpu 使用情况。我们为此使用了 oracle 数据库。目前我们正计划迁移到 hadoop。
我们讨论并提出了如下的 mapreduce 设计:
我们应该运行 2 个 mapreduce 作业
第一份工作:
收集所有系统的持久数据并按系统的 id 将它们分组(减少),例如输出,
pc-1 : [ list of recorded cpu useges (in every 5 sec) ]
然后这将给下一个工作
第二份工作:
输入是:[系统记录的 cpu 使用列表(每 5 秒)]
那么这个工作将把这些数据分组并减少到一个输出格式,比如:
last 12 hrs : 20%(average)
last 24 hrs : 28%(average)
last week : 10%(average) ....
可能吗。或者我们的想法是错误的..请帮助...