4

多年来,我一直在研究集群系统,并决定是时候拥有一个工具,让我们可以轻松地查询纯文本日志文件(以及其他内容)。我将所有日志文件下载到了一台旧的测试机器上,它们需要大约 20 GB 的压缩空间,但会需要 550 GB 的未压缩空间(部分原因是许多堆栈跟踪)。我们有不同的人维护不同的“主题”,并且我们的日志格式多年来发生了变化。但是让我们假设我可以以某种方式将其转换为所有主题的单一一致格式。

我的问题是:是否有一些免费/开源工具可以让我放松这些文件,它会自动识别重复出现的类似日志消息。作为示例消息:

User John Smith has logged in from IP aaa.bbb.ccc.ddd. Duration: zzz ms.

鉴于此类消息的许多实例,该工具将制定出如下模式:

User * has logged in from IP *. Duration: * ms.

其中 * 是不同数据的占位符。一旦我们有了这些模式(需要定期更新),我们就可以将每条新消息与模式匹配,并构建有用的统计信息。

理想情况下,我们使用的工具应该是 Java、Python 或 Perl,而且我们处于 Windows/Linux 混合环境中。

4

1 回答 1

0

This might also be an option: Grok, automatic log pattern discovery in Python

于 2011-05-13T10:49:53.913 回答