我有一组要解析的 Apache 日志。具体来说,该站点上运行的 PHP 脚本将参数传递给数据库,以将结果过滤给公众。这个名为“searchbox.php”的脚本传递了三个我对结果感兴趣的参数(在其 URL 中):
- 引擎
- 询问
- 子引擎
其余的信息目前对我来说没有价值。以下是单个日志条目的格式:
sub.domain.com 123.456.789.456 - - [28/Jun/2012:00:04:00 -0500] "GET /sitescripts/search-box/searchbox.php?engine=catalog-vs-worldcat&query=law+enforcement+articles&x=0&y=0&subengine=iiikw HTTP/1.1" 302 20 "http://sub.domain.com/" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.7; rv:12.0) Gecko/20100101 Firefox/12.0" - 0
我需要的信息在 GET 请求中,我只需要一种干净的方式从这些大型日志文件中提取这三位信息并将其转储到 CSV 或制表符分隔的文件中。
我想这将在 PHP 中完成,但我也会使用 Python。