c# - 使用正则表达式解析日志文件

Question

我目前正在为我们的内部日志文件（由 log4php、log4net 和 log4j 生成）开发一个解析器。到目前为止，我有一个很好的正则表达式来解析日志，除了一个烦人的位：一些日志消息跨越多行，我无法正确匹配。我现在拥有的正则表达式是这样的：

(?<date>\d{2}/\d{2}/\d{2})\s(?<time>\d{2}):\d{2}:\d{2}),\d{3})\s(?<message>.+)

日志格式（我用来测试解析器）是这样的：

07/23/08 14:17:31,321 log 
message
spanning
multiple
lines
07/23/08 14:17:31,321 log message on one line

当我现在运行解析器时，我只得到日志开始的那一行。如果我将其更改为跨越多行，我只会得到一个结果（整个日志文件）。

@samjudson：

您需要将 RegexOptions.Singleline 标志传递给正则表达式，以便“。” 匹配所有字符，而不仅仅是除了换行符（这是默认设置）之外的所有字符。

我试过了，但它与整个文件匹配。我还尝试将消息组设置为 .+? （非贪婪），但它匹配单个字符（这也不是我要找的）。

问题是消息的模式也与日期组匹配，所以当它没有在换行符上中断时，它只会继续下去。

我现在将这个正则表达式用于消息组。它可以工作，除非日志消息中的模式与日志消息的开头相同。

(?<message>(.(?!\d{2}/\d{2}/\d{2}\s\d{2}:\d{2}:\d{2},\d{3}\s\[\d{4}\]))+)

score 3 · Accepted Answer

这仅在日志消息在行首不包含日期时才有效，但您可以尝试在“消息”组中为日期添加否定的前瞻断言：

(?<date>\d{2}/\d{2}/\d{2})\s(?<time>\d{2}:\d{2}:\d{2},\d{3})\s(?<message>(.(?!^\d{2}/\d{2}/
\d{2}))+)

请注意，这需要使用 RegexOptions.MultiLine 标志。

score 2 · Accepted Answer

您显然需要将“消息行”与“日志行”区分开来；如果您允许消息部分在新行之后以日期/时间开头，那么根本无法确定什么是消息的一部分，什么不是。因此，您需要一个表达式来允许不包含换行符后跟日期和时间的任何内容，而不是使用点。

然而，就个人而言，我不会使用正则表达式来解析整个日志条目。我更喜欢使用自己的循环遍历每一行，并使用一个简单的正则表达式来确定一行是否是新条目的开始。同样从可读性的角度来看，这将有我的偏好。

score 1 · Accepted Answer

您遇到的问题是您需要终止 RegEx 模式，以便它知道一条消息何时结束，然后下一条消息开始。

当您在默认模式下运行时，换行符作为隐式终止符工作。

问题是，如果您进入多行模式，则没有终止符，因此该模式将吞噬整个文件。非贪婪匹配尽可能多的几个字符，这将只是一个。

现在，如果使用下一条消息的日期作为终止符，我认为您的解析器只会得到每隔一行。

文件中是否还有其他内容可以终止模式？

score 0 · Accepted Answer

你需要通过RegexOptions. 在正则表达式中加入单行标志，使“.” 匹配所有字符，而不仅仅是除了换行符（这是默认设置）之外的所有字符。

score 0 · Accepted Answer

您可能会发现使用适当的解析器生成器解析文件要容易得多 - ANTLR 可以在 C# 中生成一个... 上下文无关的解析器只有在您“获得”它们之前似乎很难 - 之后，它们使用起来更加简单和友好比正则表达式...

5 回答 5