1

我正在寻找一种使用 awk 将以下文本拆分为适当列的方法。

我有

[2013-06-17 13:30] [PACMAN] Running 'pacman -S cups'
[2013-06-17 13:30] [PACMAN] reinstalled cups (1.6.2-2)

所以,关于:

[2013-06-17 13:30] [PACMAN] Running 'pacman -S cups'

我想:

$1 to be [2013-06-17 13:30]
$2 to be [PACMAN] 
$3 to be Running
$4 to be 'pacman -S cups'

为了:

[2013-06-17 13:30] [PACMAN] reinstalled cups (1.6.2-2)

我想:

$1 to be [2013-06-17 13:30]
$2 to be [PACMAN]
$3 to be reinstalled
$4 to be cups (1.6.2-2)

我做了很多谷歌搜索,找不到任何东西,而且我对 awk 很陌生

4

3 回答 3

3

(以下内容似乎特定于 GNU awk;BSDawk不支持将子组捕获到数组中。)

在这种情况下,您可能希望将整个字符串与特定的正则表达式进行匹配,而不是依赖于awk的字段拆分。

$ echo "[2013-06-17 13:30] [PACMAN] Running 'pacman -S cups'" | awk '
    {
       match($0, "^(\\\[.*\\\]) (\\\[.*\\\]) ([a-zA-Z]*) (.*)$", a);
       $1=a[1];
       $2=a[2];
       $3=a[3];
       $4=a[4];
       print $2
    }'
[PACMAN]

调用 后match,数组a将填充与$0正则表达式匹配的文本。第 0 个元素是整个匹配字符串,其余元素设置为正则表达式中相应的括号组。

写正则表达式可能有更好的方法;\[我收到关于被视为 plain的警告[,但总的来说它似乎有效。

于 2013-06-17T19:02:01.130 回答
1

对于不优雅的方法,请参阅下面的第四条单线。有用!!但你可能不想接受我的回答。该命令很嘈杂,您可能需要将注释添加为“文档”以使其可维护。出于这个原因,我也将它作为一个.awk文件包含在下面:-)

尽管如此,即使文件的格式相当简单,我认为最好的方法是使用正则表达式作为@chepner 注释。,如果只是因为它记录了自己。

~/$ cat test.txt 
[2013-06-17 13:30] [PACMAN] Running 'pacman -S cups'
[2013-06-17 13:30] [PACMAN] reinstalled cups (1.6.2-2)

1)第一栏:

 ~/$ awk -F '[\]]' '{print $1"]"}' test.txt 
 [2013-06-17 13:30]
 [2013-06-17 13:30]

2)第一列和第二列:

~/$ awk -F '[\]]' '{print $1"]" $2"]" }' test.txt 
[2013-06-17 13:30] [PACMAN]
[2013-06-17 13:30] [PACMAN]

3)所有三个:

~/$ awk -F '[\]]' '{print $1"]" $2"]"  $3}' test.txt
[2013-06-17 13:30] [PACMAN] Running 'pacman -S cups'
[2013-06-17 13:30] [PACMAN] reinstalled cups (1.6.2-2)

4)同上,但将第三个字段拆分为数组a以便打印Runningreinstalled单独打印。从第一个元素的偏移量 () 开始打印数组a( ) 的子字符串。substroslength

~/$ awk -F ']' '{split($3,a," "); os=(length(a[1])+2) ; print $1"]" $2"] " a[1]" " substr($3,os) }' test.txt
[2013-06-17 13:30] [PACMAN] Running 'pacman -S cups'
[2013-06-17 13:30] [PACMAN] reinstalled cups (1.6.2-2)

这是 BSD awk,所以它应该可以在 OSX 上运行。

# split.awk ... run with: awk -f split.awk  data.txt

BEGIN{
FS="]"   # Make the field separator be "]"
}
{
  # Split the third field into array "a"
  split($3,a," ") 
  os=(length(a[1])+2) 
   # Print the first two fields and a substring of array "a" (substr)            
   # starting at offset ("os") taken from the length of the first element 
   # right adjusted for two whitespaces.
  print $1"]" $2"] " a[1]" " substr($3,os) 
}

HTH。

于 2013-06-17T18:38:55.090 回答
0

如您的示例中所述,我对您想要的第三和第五场(以及缺少的第四场)有一些困惑。

第一种方式:我的试验是基于引入一个新的分隔符,我们想在其中分隔字段......

命令 :

~/so_test> cat ztmp_bk | sed -n 's/]/]^/gp'| awk -F"^" '{print $1 "==" $2 "==" $3 }'

输出:(由“==”标识的字段)

[2013-06-17 13:30]== [PACMAN]== Running 'pacman -S cups'
[2013-06-17 13:30]== [PACMAN]== reinstalled cups (1.6.2-2)

第二种方式:

另一种方法是将文件分成几部分,然后对第三个文件再次执行,直到我们得到所需的单个列,然后我们可以使用粘贴与用户定义的分隔符合并它们......

像下面这样:(很粗糙,但你明白了!)

Kaizen ~/so_test/test $ cat ztmp  | sed -n 's/]/]^/gp'| awk -F"^" '{print $1 "^" $2}' > ztmp1 ;
Kaizen ~/so_test/test $  cat ztmp  | awk -F" " '{print   $4 "^" $5 $6 $7}' > ztmp2 ;
Kaizen ~/so_test/test $  paste -d^ ztmp1 ztmp2 > ztmpF ;

输出:这将为您提供一个以 ^ 分隔的新文件,因此您之前的 awk 命令现在将适用于该文件

Kaizen ~/so_test/test $ cat ztmpF
[2013-06-17 13:30]^ [PACMAN]^Running^'pacman-Scups'
[2013-06-17 13:30]^ [PACMAN]^reinstalled^cups(1.6.2-2)

Kaizen ~/so_test/test $ cat ztmpF | awk -F"^" '{print "first field:" $1 "\n" "second field:" $2 "\n" "third     field:" $3 "\n" "forth field:" $4 "\n" }'
first field:[2013-06-17 13:30]
second field: [PACMAN]
third field:Running
forth field:'pacman-Scups'

first field:[2013-06-17 13:30]
second field: [PACMAN]
third field:reinstalled
forth field:cups(1.6.2-2)

这有帮助吗?

于 2013-06-17T12:31:22.213 回答