我有一个设计问题,在我的 CDH 4.1.2(Cloudera) 安装中,我将每日滚动日志数据转储到 HDFS 中。我有一些报告来计算每天的成功率和失败率。
我有两种方法
- 将每日日志数据加载到 Hive 表中并创建一个复杂的查询。
- 每天预先运行 MapReduce 作业以生成摘要(基本上只有几行)并继续附加到一个公共文件,即 Hive 表。稍后在运行报告时,我可以使用简单的选择查询来获取摘要。
我试图了解这两者中哪种方法更好,或者是否有更好的方法。
第二种方法在合并文件方面增加了一些复杂性。如果不合并,我会有很多非常小的文件,这似乎是个坏主意。
感谢您的意见。
谢谢