我试图在我的 apache 访问日志中找到任何空白用户代理和欺骗用户代理的痕迹。
这是我的访问日志中的典型行:(已编辑 IP 和域)
x.x.x.x - - [10/Nov/2012:16:48:38 -0500] "GET /YLHicons/reverbnation50.png HTTP/1.1" 304 - "http://www.example.com/newaddtwitter.php" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/534.7 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/534.7 ZemanaAID/FFFF0077"
对于空白用户代理,我正在尝试这样做:
awk -F\" '($6 ~ /^-?$/)' /www/logs/www.example.com-access.log | awk '{print $1}' | sort | uniq
为了查找有关 UA 的信息,我正在运行:(给我每个唯一 UA 的点击量)
awk -F\" '{print $6}' /www/logs/www.example.com-access.log | sort | uniq -c | sort -fr
我可以做些什么不同的事情来使这些命令更强大、更深思熟虑,同时为我提供最好的信息来对抗互联网上的机器人和其他渣滓?