12

我在网格和 HPC 空间中做了很多工作,而对于分布在数百台(有时甚至是数千台)服务器上的系统,我们面临的最大挑战之一是分析日志文件。

目前日志文件本地写入每个刀片上的磁盘,但我们也可以考虑使用例如 UDP Appender 发布日志信息并集中收集。

鉴于目标是能够尽可能接近实时地识别问题,我们应该怎么做?

4

2 回答 2

3

首先,使用 NTP 同步系统中的所有时钟。

其次,如果您在单个位置(如您提到的 UDP 附加程序)收集日志,请确保日志有足够的信息来实际提供帮助。我会至少包括生成日志的服务器、它发生的时间和消息。如果有任何类型的事务 ID 或工作 ID 类型概念,也包括在内。

既然您提到了 UDP Appender,我猜您正在使用 log4j(或其兄弟姐妹之一)。Log4j 有一个 MDC 类,它允许通过处理线程传递额外的信息。它可以帮助收集一些额外的信息并将其传递。

于 2008-08-29T21:09:17.767 回答
0

你在用阿帕奇吗?如果是这样,您可以查看mod_log_spread尽管您的基础设施可能太大而无法使其可维护。另一种选择是查看“广播”或“多播”您的日志消息,并让专用的日志服务器订阅这些提要并整理它们

于 2008-08-30T12:39:55.253 回答