3

您如何监控生产中的应用程序?日志,正常运行时间等...(我更喜欢外部应用程序,免费和开源)

例如,我想

  1. 如果应用程序出现故障,能够发出警报
  2. 如果 CPU 使用率 > 超过设定的阈值,则发送警报
  3. 如果内存使用量 > 超过设定的阈值,则发送警报
  4. 发送错误消息警报
  5. 必须是可配置的,如果在 Y 时间段内发生 X 次,可能会发送警报
4

5 回答 5

3

什么样的应用程序?

我过去使用过 Nagios。它是免费和开源的。它允许您设置警报、监控事件日志、监控特定于应用程序的日志,以及监控服务器基础设施和网络本身。

http://www.nagios.org/

于 2009-06-18T23:55:43.260 回答
1

许多人正在转向面向数据的解决方案。虽然大多数监控工具(nagios 等)都提供静态图表,但它们更加孤岛,传统视图 - 今天的应用程序高度分布式,事务跨越多个服务器,事情可能会变得疯狂。对于超越 kpis 和简单 apis 的更多高级功能,您需要查看LogscapeSplunk等机器数据解决方案。它们允许您创建灵活的仪表板等,并且可以交互式地向下钻取以提供非常丰富的根本原因分析。查看此页面上的一些应用程序LogscapeApps

于 2012-10-12T12:32:18.900 回答
0

Nagios 是要走的路——有点学习曲线,但可定制且功能强大。还有一个服务器端守护进程,可以监控文件、磁盘空间等。

于 2009-06-19T01:29:31.120 回答
0

我们有一个定制的内部监控软件。

它监视我们各种实时机器(和测试)上的事件日志,以了解我们的 Web 应用程序产生的错误。我们所有的 Web 应用程序都会将任何异常写入错误日志。它还 ping 服务器并监控驱动器空间。

每台开发机器上都有一个客户端应用程序轮询监视我们定义的所有服务器的服务器应用程序。此客户端应用程序在任务托盘中运行,并在出现任何异常时弹出消息,以便开发人员立即看到。我们还可以看到测试人员何时遇到错误,并且通常在测试人员甚至报告错误时已经修复或至少正在进行修复。

服务器还会通过电子邮件发送到通讯组,以便我们在需要时可以在不工作时查看重要错误。

它还具有抑制预定义异常/错误的能力。

于 2009-06-19T01:52:00.983 回答
-2

谷歌分析???

于 2009-06-18T23:48:03.340 回答