bash - 解析带引号的字符串

Question

我正在尝试从 http 日志文件中检索主机。通常，我会做类似的事情：

cat proxy.log | awk '{ print $16 }'

但是，日志文件的格式如下：

2012-05-21 05:55:01 503 <client_ip> - - - OBSERVED "Entertainment" - 200 TCP_RESCAN_HIT GET text/xml;%20charset=UTF-8 http <server_ip> <server_host> 80 / ?feed=rss2 - "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; InfoPath.3; MS-RTC LM 8; Microsoft Outlook 14.0.6025; ms-office; MSOffice 14)" <proxy_ip> 13356 479 -

如您所见，一些字段被引用，并且具有动态数量的空格。这意味着 16 美元并不总是返回主机。我可以使用 shlex.split() 在 python 中解决这个问题，它返回一个数组。

但是我使用的一些系统没有安装 python，我想知道这如何使 bash 脚本（使用标准 gnu 工具）以我可以一致地解决即 16 美元的方式拆分日志条目。

如果读者有同样的问题并且有 python 可用，这是我的 python 解决方案：

#!/usr/bin/env python

import shlex, sys, string
EOF = ""
if len(sys.argv) == 2:
        try:
                field = int(sys.argv[1])
        except ValueError:
                print "error: <field_no> must be a positive integer"
                sys.exit(1)
else:
        print "usage: %s <field_no>" % sys.argv[0]
        sys.exit(1)

def process(line):
        line = string.strip(line)
        line = shlex.split(line)
        return line[int(sys.argv[1])]

line = sys.stdin.readline()
while not line == EOF:
        sys.stdout.write(process(line)+"\n")
        line = sys.stdin.readline()

score 0 · Accepted Answer

如果该GET (something) http <server_ip>位可靠，您可以像这样使用 GNU sed：

$ cat proxy.log
2012-05-21 05:55:01 503 <client_ip> - - - OBSERVED "Entertainment" - 200 TCP_RESCAN_HIT GET text/xml;%20charset=UTF-8 http <server_ip> <server_host> 80 / ?feed=rss2 - "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; InfoPath.3; MS-RTC LM 8; Microsoft Outlook 14.0.6025; ms-office; MSOffice 14)" <proxy_ip> 13356 479 -
$ cat proxy.log | sed -r 's/^.*(GET|POST) [^ ]+ http ([^ ]+) .*$/\2/'
<server_ip>

score 0 · Accepted Answer

我会尝试匹配一个字段，其中前一个字段是 IP 地址，下一个字段是整数：

perl -MRegexp::Common -ane '
  $n=16;
  while ($n < @F) {
    if ($F[$n-2] =~ /$RE{net}{IPv4}/ and $F[$n] =~ /^\d+$/)
      print "$F[$n-1]\n";
      break;
    }
    $n++;
  }
' filename

score 0 · Accepted Answer

如果您只想摆脱可变数量的空格，可以在 awk 之前使用 sed

cat proxy.log | sed 's/  */ /g' | awk '{ print $16 }'

使用替换 s/ */ /g 任何正数的空格都被剥离为一个

bash - 解析带引号的字符串

3 回答 3

Related

Reference