我需要使用 map reduce 依次解析 Apache 访问日志和 tomcat 日志。从 tomcat 日志中提取的字段很少,从 Apache 日志中提取。我需要根据时间戳合并 /map 提取的字段,并将这些映射的字段导出到传统的关系数据库(例如 MySQL)中。
我可以使用正则表达式或 pig 解析和提取信息。我面临的挑战是如何将两个日志中提取的信息映射到单个聚合格式或文件中,以及如何将这些数据导出到 MYSQL。
我正在考虑的几种方法
1) 将解析后的 Apache 访问日志和 tomcat 日志的 map reduce 输出写入单独的文件,并将它们合并到一个文件中(再次基于时间戳)。将此数据导出到 MySQL。
2) 使用 Hbase 或 Hive 将数据以表格式存储在 hadoop 中并导出到 MySQL
3)直接使用JDBC将map reduce的输出写入MySQL。
哪种方法最可行,还请建议您知道的任何其他替代解决方案。