问题标签 [bosun]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
monitoring - 如何编写处理低流量的 bosun 警报
如果您正在编写基于系统处理的请求的百分比错误率的 bosun 警报,您如何编写它以使其能够处理低流量时段。
例如:如果我有一个警报,它回顾过去 5 分钟并计算出请求的错误率
$errorRate = $numberErr/$numberReq
,然后在 errorRate 超过预定义阈值时触发警报,crit = $errorRate > 0.05
只要每 5 分钟有一个足够多的请求($numberReq
)。
如果 5 分钟内的请求数为 10,000,则需要 501 个错误才能触发警报。但是,如果 5 分钟内的请求数为 100,则只需 5 个错误即可触发警报。
我如何编写一个警报来处理请求数量如此之低以至于少量错误将等同于大错误率的时期。我曾考虑过一个滑动的时间窗口,而不是固定的 5 分钟时间段,在这个时间段内,窗口的大小会增加,直到请求数量足够高,从而对警报产生一定的信心。例如,增加时间段,直到请求数为 10,000。
我无法在 bosun 中找到实现这一目标的方法,而且我不想为我的警报投入更长的时间,因为流量变化很大。高峰流量期间的较长时间可能会导致实际错误,从而产生更大的影响。
bosun - 使用 Bosun 保存挂钩时出现格式错误
尝试在 Bosun 中使用“保存挂钩”功能时出现以下错误 -
failed to call save hook: fork/exec /tools/bosun/bin/save-hook: exec format error. Restoring config: successful
该文件是可执行的,我已经从中删除了所有逻辑,但错误仍然存在。
文件应该返回什么吗?或者这是一个错误?
文档表明只要钩子正常退出,它就应该成功。
oracle - Oracle 表空间预测警报和模板未给出正确结果
我对 Bosun 很陌生,并且一直在尝试为表空间使用配置预测警报。我将粘贴我的模板和警报代码
}
}
我期望它应该给出的结果是我的表空间使用量将在多少天内 100% 满。
但是输出有点奇怪,我不确定问题是什么。模板的样本输出是
" 主题正常:Oracle 表空间:(NaNB/NaNB) NaN%(预计剩余 -3650.00 天)正文
确认警报
在 Bosun 的规则页面查看规则 + 模板
注意:当在 Oracle 表空间可用空间中检测到问题时会触发此警报。
在 Opserver 中查看 Host dba
主机:testhost # 磁盘:
可用空间:NaN% 已使用:NaNB 总计:NaNB Est。-3650.00 天,直到 0% 可用空间“剩余的估计天数、可用空间、已用、总计的值出现错误。有人可以帮我纠正警报吗?
谢谢
grafana - Grafana 中主机的 Top-n 负载、内存、CPU 使用率的指标
我们正在尝试使用 Bosun/OpenTSDB 数据源在 Grafana 中显示以下内容:
一个。主机按 Top-n 负载降序排列
b. 内存消耗前 10 的进程
C. CPU 使用率最高的进程
但是,我们找不到合适的指标。
如何显示这些信息?
其次,如果这些指标在 Bosun/OpenTSDB 中不可用,那么您应该如何为它们创建或定义新的指标?
opentsdb - BOSUN:如何从 BOSUN 获取特定 Tag_key 的 Tag_values?
我有一个BOSUN服务器正在运行,它被配置为在OPENTSDB上运行。我每分钟都使用SCOLLECTOR向OPENTSDB发送数据。我正在寻找的是一种获取OPENTSDB 中存在的给定Tag_Key和Metric_Name的所有可能Tag_Values的方法。
例如假设我有,
我正在存储一定数量的队列的容量。这些数据在OPENTSDB中。我可以使用查询查询 BOSUN 的metric=data.queue.capacity值:
这给出了输出:
返回的结果按不同的 Queue 值分组。很难使用上述响应数据来获取所有可能的队列名称,因为:
- 它只返回开始时间和结束时间之间的数据,因此如果队列名称说 queue_not 在 start_time 和 end_time 之间没有度量点,它将不会出现在响应中。
- 这会提供大量数据作为响应,我可以汇总,但我认为这不是获取标签值的最佳方式。
我想要的是一个 API,我可以在其中提供Metric_Name和Tag_Key,并且我应该得到一个 JSON 数据,其中包含OPENTSDB中针对Metric_Name和Tag_Key存在的所有可能的Tag_Values。
经过搜索,我找到了部分解决方案: BOSUN有 API 来获取所有Tag_values,但仅适用于通过 BOSUN 中继的那些指标。
API:/api/tagv/{tagk}/{metric}
此 API 接受的Tag_key和Metric_Name并为此组合提供Tag_Values的所有值。
我仍然没有解决方案来获取不通过BOSUN转发而是直接转发给OPENTSDB的指标的Tag_values。该解决方案可能不涉及BOSUN它也可能是OPENTSDB API。
bosun - Bosun:在通知部分发送认证令牌
我希望 Bosun 对 JIRA 进行 API 调用,这需要以 BASE64 编码字符串用户名:密码的形式进行基本身份验证。我可以在通知定义中使用什么关键字将身份验证令牌传递给 JIRA?我的基本通知如下所示:
阅读 bosun.org 上的文档时,我找不到任何可以使用的特定关键字。有什么提示吗?
alert - bosun 从不发送未知通知
未知通知真的让我很苦恼,官方文档似乎比发布的 bosun 二进制文件更新,就像unknownPost
非法选项一样。
以下未知模板和通知不起作用。我可以在 bosun UI 中看到未知通知,但它不发送通知(http 警报)。其他正常警报工作正常。
我想提醒 cpu 使用情况。如果主机不在,则没有数据报告,我将收到未知警报。
Bosun版本:master分支最新编译(2018.10.08)
bosun - 使用 Bosun,我怎样才能使警报在一天中的某些时间不触发?
我正在使用 bosun 来监控一个指标,该指标在工作日的大部分时间应该是非零的,但可以在夜间为零/不可用。
我如何才能最好地调整此警报,以便如果指标在晚上 8 点和早上 8 点之间的时间为零或未知,它不会触发警报?我查看了文档,但我不确定如何进行与一天中的时间相关的查询。
bosun - 从多个端点收集 Bosun 的数据
在我们从头开始构建的可观察性系统中,我们希望有一个收集器来收集来自所有 Web 服务器的数据并将其发送到 Bosun,而不是在每个服务器上都有一个 scollector 实例。
你知道是否有办法实现这一目标?