我有几百个网络设备每 10 分钟检查一次我们的服务器。每个设备都有一个嵌入式时钟,在每次签入服务器时计算秒数并报告经过的秒数。所以,样本数据集看起来像
CheckinTime Runtime
2010-01-01 02:15:00.000 101500
2010-01-01 02:25:00.000 102100
2010-01-01 02:35:00.000 102700
等等
如果设备重新启动,当它检查回服务器时,它会报告运行时间为 0。
我试图确定的是设备“健康”的某种可量化指标。
如果设备在过去多次重启但在过去 xx 天内未重启,则与除过去 xx 天重复重启外的正常运行时间较长的设备相比,它被认为是健康的。此外,与在过去 xx 天内每 24 小时左右不断重启的设备相比,已启动 30 天并刚刚重启的设备不应被视为“苦恼”。
我尝试了多种计算运行状况的方法,使用了多种指标:1.平均重启次数 2.最大(正常运行时间)3.平均(正常运行时间)4.过去 24 小时内的重启次数 5.重启次数过去 3 天 6. 过去 7 天的重启次数 7. 过去 30 天的重启次数
每个单独的指标仅考虑设备运行状况的一个方面,但不考虑与其他设备或其当前运行状况相比的整体运行状况。
任何想法将不胜感激。