我是hadoop的新手,无法很好地理解这个概念,我遵循了以下过程
实际上我正在尝试做的/我得到的要求是/var/log/httpd
使用以下格式的 python 处理位于 hadoop的 fedora(linux) 中的 apache 日志文件
IP address Count of IP Pages accessed by IP address
我知道apache日志文件有两种
访问日志
错误日志
但我真的无法理解 apache 日志文件的格式。
我的 apache 日志文件内容如下所示
::1 - - [29/Oct/2012:15:20:15 +0530] "GET /phpMyAdmin/ HTTP/1.1" 200 6961 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.77 Safari/537.1"
::1 - - [29/Oct/2012:15:20:16 +0530] "GET /phpMyAdmin/js/cross_framing_protection.js?ts=1336063073 HTTP/1.1" 200 331 "http://localhost/phpMyAdmin/" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.77 Safari/537.1"
::1 - - [29/Oct/2012:15:20:16 +0530] "GET /phpMyAdmin/js/jquery/jquery-1.6.2.js?ts=1336063073 HTTP/1.1" 200 92285 "http://localhost/phpMyAdmin/" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.77 Safari/537.1"
谁能解释一下上面/apache日志文件的结构
我对如何使用数据 IP 地址、IP 地址计数、IP 地址访问的页面处理日志文件感到困惑
谁能让我知道我们如何使用 python 和上述信息使用 haddop 处理 apache 日志文件,并以上述格式存储结果
也可以请任何人提供python中的基本代码来处理上述格式的apache日志文件,以便我实时了解如何使用python代码处理文件并根据需要扩展它们