问题标签 [cloudwatch-alarms]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-cloudwatch - 基于自定义指标的指标名称跨所有维度的 Cloudwatch 警报
我们正在从我们的服务发布自定义 Cloudwatch 指标,并希望在指标名称的值超出任何维度的阈值时设置警报。以下是我们发布的指标:
- 命名空间=SameName,MetricName=Fault,Dimensions=[ Operation=A,Program=ServiceName]
- 命名空间=SameName,MetricName=Fault,Dimensions=[ Operation=B,Program=ServiceName]
- 命名空间=SameName,MetricName=Fault,Dimensions=[ Operation=C,Program=ServiceName]
我们想设置一个警报,以便Fault
跨任何维度将其置于Alarm
状态。
如您所见,维度 Operation 的值是不同的。目前,我们只有这 3 个操作,所以我知道我们可以使用度量数学来设置这个警报。但我相信我们会达到一个持续增长的地步。
我可以在搜索表达式中使用 SEARCH 表达式 + 聚合来为其生成图表,但它不会让我创建警报说The expression for an alarm must include at least one metric.
还有其他方法可以实现吗?
amazon-web-services - 配置 SQS 死信队列以在收到消息时引发云监视警报
我在 Amazon SQS 中使用死信队列。我希望每当队列收到新消息时,它都应该引发 CloudWatch 警报。问题是我在 metric: of the queue 上配置了一个警报,但是在Amazon SQS Dead-Letter Queues - Amazon Simple Queue Service文档number_of_messages_sent
中提到的死信队列的情况下,此指标无法按预期工作。
现在使用了一些建议,number_of_messages_visible
但我不确定如何在警报中配置它。因此,如果我设置了 this 的值,metric>0
那么这与在队列中获取新消息不同。如果有旧消息,则度量值将始终为>0
。我可以做某种数学表达式来在某个定义的时间段内(比如说一分钟)获得这个指标的增量,但我正在寻找一些更好的解决方案。
amazon-web-services - AWS。Cloudwatch 触发警报状态更改规则
我在 CloudWatch 警报状态更改时触发 Cloudwatch 规则时遇到问题。这是规则的事件模式。它不会向 SNS 发送状态更改的消息。
警报本身正常工作并并行向 SNS 发送消息。另外,如果我将删除这部分:
那么该规则适用于每个状态变化。但我只需要将其更改为“处于警报状态”(因为它显示在 UI 中)。
感谢您的任何建议
amazon-web-services - 当 SQS 消息发送到死信队列时如何生成警报?
目标
旨在当从 SQS 队列到 lambda 函数的消息超过最大重试次数时触发 CloudWatch 警报。
问题
我认为这很容易,并且 NumberOfMessagesReceived 指标会反映这一点。熟悉这一点的人都知道,事实并非如此。
解决方案
'Limbo' 解决方案
我对这个问题的快速简单的解决方案是引入一个“Limbo”,它充当第一个 DLQ,并在几秒钟内将消息推送到最终/实际 DLQ。在指标中,这会导致“Limbo”队列的可见消息指标出现峰值。因此,具有“ > 0 ”的警报阈值意味着每次该队列收到消息时都会发出警报。
然而,我上面的权力对于每次我们想要这个功能时都有一个“Limbo”队列并不满意。
据我所知,有一些替代方法,但这些方法似乎比Limbo 解决方案更糟糕。
新的 Lambda 函数
第一个是有一个新的 lambda 函数,它使用 SQS DLQ 作为源并生成警报。
Lambda 运行时拦截
其次是让现有 lambdas(处理 SQS 消息)中的逻辑读取消息已重试的次数,并在最后一次生成警报。这种首先消除了使用队列和重新驱动策略的优势,并且是一种过度设计的解决方案。
度量数学
我能想到的最后一个选择是使用一些度量数学来查看 DLQ 并计算最后 X 分钟是否有增加。
对于什么(我确信)必须有一个简单的实现,这些似乎都是奇怪且过于复杂的解决方案。每次 DLQ 收到消息时如何创建警报?
amazon-web-services - Cloudwatch 警报不会离开警报状态,也不会重新触发
我创建了一个带有单位计数的自定义指标。要求是每 24 小时检查一次指标计数的总和是否 >= 1。如果是这样,则应向 sns 主题发送一条消息,该主题触发一个将消息发送到松弛通道的 lambda。
指标行为:当前自定义指标始终高于 1。我每 10 秒创建一个数据点。
警报行为:警报立即切换到警报状态并向 sns 主题发送消息。但是状态永远不会离开警报状态,也不会在 24 小时后重新触发新消息到 sns 主题。
如果我想达到我的要求,我应该如何配置我的警报?
在此先感谢,帕特里克
这是 aws cloudwatch describe-alarms 结果:
}
amazon-web-services - 从 aws cloudwatch 中删除自定义指标
我已经通过 SDK 成功创建了一个自定义指标,但我无法删除它我无法从 Web 控制台中找到删除它的选项(从 SDK 中,我也找不到删除/取消它的方法)
它创建了一个名为“mycompany/myresources”的指标,但我无法删除它
amazon-web-services - AWS CloudWatch 日志:当 lambda 记录特定错误消息时如何发送电子邮件通知
我必须监控特定 lambda 的 CloudWatch 日志。当 HTTP-50X 等特定错误消息记录到 CloudWatch 时,我们需要发送电子邮件通知以提醒出现问题。
我们需要帮助在 AWS 中创建警报电子邮件以手动监控日志以查看是否记录了任何此类错误。
amazon-web-services - AWS EC2 Autoscaling Target Tracking 策略如何扩展?
我观察到在 15 分钟内需要 15 个数据点才能触发警报并开始缩减,但我找不到更改或调整此行为的选项。
我们能否改变这种行为,或者我们将不得不定义另一个扩展策略来进行扩展?
似乎它是针对 CPU 利用率的目标跟踪扩展策略的默认设置
- 3 分钟内 3 个数据点的 CPUUtilization > 50 [将触发高警报]
- 15 分钟内 15 个数据点的 CPUUtilization < 35 [将触发低警报]
这是真的?
amazon-web-services - CloudWatch 警报错误百分比 API 网关
我正在尝试使用 terraform 在 Cloudwatch 中设置和警报。我的告警基本上需要检查网关在1分钟的2个时段内是否有超过5%的5xx错误。
我已经尝试了以下代码,但它不起作用:
即使部署了警报,也不会显示数据。做一些测试,我注意到这个警报显然不接受单位“百分比”。
有没有人有关于如何配置此类警报的示例terraform
?cloudformation