parsing - 一种区分日志文件的简单方法，忽略时间戳？

Question

我需要区分两个日志文件，但忽略每行的时间戳部分（准确地说是前 12 个字符）。是否有一个好的工具或聪明的 awk 命令可以帮助我？

score 52 · Accepted Answer

根据您使用的外壳，您可以将@Blair建议的方法转换为 1-liner

diff <(cut -b13- file1) <(cut -b13- file2)

（+1 到@Blair的原始建议 :-)

score 23 · Accepted Answer

@EbGreen 说

我只需获取日志文件并从每行的开头剥离时间戳，然后将文件保存到不同的文件中。然后比较这些文件。

这可能是最好的选择，除非您的差异化工具具有特殊能力。例如，您可以

cut -b13- file1 > trimmed_file1
cut -b13- file2 > trimmed_file2
diff trimmed_file1 trimmed_file2

请参阅@toolkit 的响应以进行优化，使其成为单线并消除对额外文件的需求。如果您的外壳支持它。Bash 3.2.39 至少似乎...

score 15 · Accepted Answer

使用的答案cut很好，但有时在diff输出中保留时间戳是可观的。由于 OP 的问题是关于忽略时间戳（不删除它们），我在这里分享我棘手的命令行：

diff -I '^#' <(sed -r 's/^((.){12})/#\1\n/' 1.log) <(sed -r 's/^((.){12})/#\1\n/' 2.log)

sed隔离进程替换#中的时间戳（之前和\n之后）
diff -I '^#'忽略具有这些时间戳的行（以开头的行#）

例子

两个具有相同内容但不同时间戳的日志文件：

$> for ((i=1;i<11;i++)) do echo "09:0${i::1}:00.000 data $i"; done > 1.log
$> for ((i=1;i<11;i++)) do echo "11:00:0${i::1}.000 data $i"; done > 2.log

基本diff命令行表示所有行都不同：

$> diff 1.log 2.log
1,10c1,10
< 09:01:00.000 data 1
< 09:02:00.000 data 2
< 09:03:00.000 data 3
< 09:04:00.000 data 4
< 09:05:00.000 data 5
< 09:06:00.000 data 6
< 09:07:00.000 data 7
< 09:08:00.000 data 8
< 09:09:00.000 data 9
< 09:01:00.000 data 10
---
> 11:00:01.000 data 1
> 11:00:02.000 data 2
> 11:00:03.000 data 3
> 11:00:04.000 data 4
> 11:00:05.000 data 5
> 11:00:06.000 data 6
> 11:00:07.000 data 7
> 11:00:08.000 data 8
> 11:00:09.000 data 9
> 11:00:01.000 data 10

我们的技巧diff -I '^#'没有显示任何差异（忽略时间戳）：

$> diff -I '^#' <(sed -r 's/^((.){12})/#\1\n/' 1.log) <(sed -r 's/^((.){12})/#\1\n/' 2.log)
$>

更改2.log（在第 6 行替换data为foo）并再次检查：

$> sed '6s/data/foo/' -i 2.log
$> diff -I '^#' <(sed -r 's/^((.){12})/#\1\n/' 1.log) <(sed -r 's/^((.){12})/#\1\n/' 2.log)
11,13c11,13
11,13c11,13
< #09:06:00.000
<  data 6
< #09:07:00.000
---
> #11:00:06.000
>  foo 6
> #11:00:07.000

=> 时间戳保存在diff输出中！

您还可以使用or选项使用并排功能：-y--side-by-side

$> diff -y -I '^#' <(sed -r 's/^((.){12})/#\1\n/' 1.log) <(sed -r 's/^((.){12})/#\1\n/' 2.log)
#09:01:00.000                   #11:00:01.000
 data 1                          data 1
#09:02:00.000                   #11:00:02.000
 data 2                          data 2
#09:03:00.000                   #11:00:03.000
 data 3                          data 3
#09:04:00.000                   #11:00:04.000
 data 4                          data 4
#09:05:00.000                   #11:00:05.000
 data 5                          data 5
#09:06:00.000                 | #11:00:06.000
 data 6                       |  foo 6
#09:07:00.000                 | #11:00:07.000
 data 7                          data 7
#09:08:00.000                   #11:00:08.000
 data 8                          data 8
#09:09:00.000                   #11:00:09.000
 data 9                          data 9
#09:01:00.000                   #11:00:01.000
 data 10                         data 10

老的`sed`

如果您的sed实现不支持该-r选项，您可能需要计算十二个点<(sed 's/^\(............\)/#\1\n/' 1.log)或使用您选择的其他模式；）

score 14 · Accepted Answer

对于图形选项，Meld可以使用其文本过滤器功能执行此操作。

它允许忽略基于一个或多个 python 正则表达式的行。差异仍然出现，但没有任何其他差异的行不会突出显示。

score 2 · Accepted Answer

使用Kdiff3并在Configure>Diff中将“行匹配预处理器命令”编辑为：

sed "s/[ 012][0-9]:[0-5][0-9]:[0-5][0-9]//"

这将从比较对齐算法中过滤掉时间戳。

Kdiff3 还允许您手动对齐特定的行。

parsing - 一种区分日志文件的简单方法，忽略时间戳？

5 回答 5

例子

老的sed

Related

Reference

老的`sed`