我目前正在将我网页上的所有活动记录到文件 access.log 中的 nginx 网络服务器。该文件因其格式而难以理解,我希望通过将这些日志文件导出到 Hadoop Hive 来分析它们。但是,hive 无法理解原始 nginx 日志。因此,我计划将这些日志重新生成为 JSON 或 CSV 格式,然后将它们导出到配置单元,以便我可以查询和分析日志。请向我推荐一些工具/方法,使我能够完成上述工作。目前我的 nginx 日志如下所示:
115.249.242.17 - - [01/Jun/2012:18:44:57 +0530] "GET /flashlayer?videoId=66127&playSessionId=VOD_66127_e04393db-0b40-44b1-aad8-aa2169ac71a710.32.6.1311338556485611&duration=0&playerState=playing&playerError=null HTTP/1.1" 200 86 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:12.0) Gecko/20100101 Firefox/12.0"