问题标签 [cloudwatch-alarms]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
447 浏览

amazon-web-services - AWS Cloudwatch - 在 15 分钟的 lambda 超时时不发送警报邮件

我有一个奇怪的问题,我不明白。我创建了一个 cloudwatch 警报,它应该通知我 lambda 执行中的错误(包括超时)。

报警的相关参数如下:

当我的 lambda 在 15 分钟(最大 Lambda 执行时间)后超时时,不会向我发送任何电子邮件。当我的 lambda 在 2、6、10 或 14 分钟后超时时,我将按预期收到通知电子邮件。即使在 14 分 30 秒时,也会发送邮件。超过 14:30 分钟,指标不会切换到警报状态。

有人知道为什么会这样吗?数据点(错误)在指标中正确显示。似乎该点(错误)设置为 lambda 的开始日期。这可能是问题吗?因为自 lambda 开始以来已经过去了 3 个评估期?但是为什么我在 14 分钟后超时运行时收到警报邮件(也是一个以上的评估期)。

已经在AWS 论坛中问过这个问题,但还没有答案。

谁能建议我做错了什么?

问候汉内斯

0 投票
1 回答
592 浏览

amazon-web-services - Terraform:将 SEARCH 表达式与 CloudWatch 警报结合使用

我已经查看了这个并没有太大帮助的问题,所以这里......

我有一堆 Lambda 函数,我想监控它们并在出现问题时触发 CloudWatch 警报。Lambda 函数实际上以环境名称为前缀,即env-1-function-1,env-1-function-2env-2-function-1

这些环境是独立的,即 env1 的 cloudwatch 警报设置不应该与 env2 有任何关系。所以为了实现这一点,我开始研究SEARCH表达式。

这是我的警报:

env_prefix会在哪里env-1。在绘制指标时,这在 AWS 控制台中工作得很好。

CW 控制台

现在,当我运行 Terraform 时,“更新指标警报失败:ValidationError:Period 不能为空”这句话似乎有问题,但是根据关于此的 Terraform 文档,在提供时metric_query您可能没有指定期间...

我是否有一种具体的方法来限制每个环境(名称过滤器)过滤我的 Lambda 指标,而不是在整个账户中使用 Lambda 函数?

0 投票
1 回答
474 浏览

amazon-web-services - aws elastic beanstalk 无法创建扩展触发器失败,AWSEBCloudwatchAlarmHigh 不允许空值

当我尝试指定缩放触发器时,它会不断出错

我有一个保存的模板,我正在尝试添加

所以我在没有它的情况下创建了它,它创建了自动警报。我尝试使用浏览器更新到此设置,但也失败并显示消息

这是我保存的模板

我正在使用共享负载均衡器,这可能是问题吗?使用经典的负载均衡器,它可以正常工作 - 将自动缩放指标设置为使用延迟。

要从 cli 创建环境,我运行。

更新

所以我在 beanstalk 环境中找不到 TargetResponseTime。

豆茎度量

0 投票
1 回答
146 浏览

amazon-web-services - 在 cloudwatch 中使用单个指标创建指标数学警报

我正在尝试在 cloudwatch 中创建警报。我有一个指标,我发出1.0表示成功,0.0表示失败。SUM统计数据应该给我所有成功的请求,而SAMPLE COUNT应该给所有请求(包括失败的请求)。我想创建一个警报,如果SUM(metric)/SAMPLE COUNT(metric) <= threshold它会发出警报。我无法使用单个指标来做同样的事情。SAMPLE COUNT 选项不显示。如果无法通过单个指标在 cloudwatch 中实现这一目标,我是否应该创建两个指标?

0 投票
1 回答
541 浏览

amazon-web-services - 选择或汇总针对 Cloudwatch 数据代理指标记录的维度

我正在使用 Cloudwatch 数据代理的 Procstat 插件来记录一些每个进程的 CPU 使用情况。

https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Agent-procstat-process-metrics.html

这一切都被收集好了,但是该指标被记录为“实例 ID(例如 i-143...)”、“图像 ID(例如 ami-123...)”和“实例类型”(例如 t3.small )'

当服务器被缩小和缩小时,我的警报会因为实例 ID 发生变化而中断。我还更新了 AMI,并可能在某些时候更改实例类型。如果我正在处理实例 ID,则 AMI 和实例类型无论如何都会被修复。

有没有办法配置 Cloudwatch 数据代理来记录没有这些维度的指标,或者让 Cloudwatch 指标聚合所有实例 ID?

0 投票
2 回答
193 浏览

amazon-web-services - 如果在 aws cloud watch 中空闲 30 分钟,如何停止我们的实例

我已经设置了 aws cloud watch

以下是我们云手表中设置的详细信息

  • 指标名称:CPUUtilization
  • 统计:平均
  • 时间:5分钟
  • 阈值类型:静态
  • 每当 CPUUtilization 低于/等于 10 时
  • 报警数据点:1 出 1
  • 缺失数据处理:将缺失数据视为缺失

EC2 动作:

  • 报警状态触发:In Alarm
  • 执行以下操作:停止此实例

5 分钟后,我们的服务器仍然没有停止使用 aws 中的云手表。

在此处输入图像描述

0 投票
1 回答
441 浏览

amazon-web-services - AWS Cloudwatch 警报不起作用:过去几天,警报保持“正常”,即使它超过阈值

我有一个警报,几个月来一直有效地管理我的 ASG 的大小。但是,从星期一(10 月 12 日)开始,它就停止了工作。即使图表清楚地显示它高于阈值,它也保持在“OK”状态。请参阅随附的屏幕截图。

可能会或可能不会相关的是警报将触发,然后失败且没有错误消息。在 ASG 的冷却阶段触发警报时,似乎会发生这种情况。一旦发生这种情况,警报将恢复为“OK”,然后无限期地停留在那里,即使它高于阈值。在星期一之前,它会一直处于警报状态,反复重新触发,直到 ASG 离开冷却状态。

有人知道这里发生了什么吗?我怎样才能解决这个问题?为什么在我这边没有变化的时候突然变了? 问题的屏幕截图,显示

0 投票
1 回答
239 浏览

amazon-web-services - 如果每天创建的文件少于 4 个,则需要为 AWS S3 存储桶发出警报

我有一些脚本每天在 AWS S3 存储桶中生成 4 个 csv 文件。我正在尝试使用 Cloudwatch 在 Amazon AWS 中创建一个警报,以查找在任何给定日期是否在该特定 S3 存储桶中生成的文件少于 4 个。我试图创建一个警报,但令人惊讶的是,警报具有 sum 和其他选项,但没有选项可以在给定的时间量(比如 24 小时)内检查特定的数字。

PS我在警报中看到了平均函数,但它没有给出桶中创建的对象的每日平均值。

是否可以以我需要的方式创建警报?我试过谷歌搜索,但没有找到解决这个问题的确切方法。

0 投票
2 回答
400 浏览

amazon-web-services - 为什么我的 AWS CloudWatch 警报没有被触发?

我正在尝试将 AWS 设置为在 CloudWatch 警报响起时将通知发送到松弛通道。我在本指南中遵循:

https://medium.com/analytics-vidhya/generate-slack-notifications-for-aws-cloudwatch-alarms-e46b68540133

我认为我做的一切都正确,但我没有收到我的松弛通知。我不确定它在哪里失败,但我怀疑警报没有被触发。

以下是详细信息:

CloudWatch 日志显示正在记录我的错误:

在此处输入图像描述

这是我的过滤指标:

在此处输入图像描述

这是我定义要过滤的模式的方式:

在此处输入图像描述

这是警报的状态:

在此处输入图像描述

在此处输入图像描述

在此处输入图像描述

在此处输入图像描述

闹钟好像没问题。我在记录错误后 5 分钟给了它。这是否意味着没有触发警报?

谢谢

更新

以下是一些更新的屏幕截图,以解决 Marcin 关于时间差异的观点(请注意,CloudWatch 日志采用本地时间,警报图采用 UTC——6 小时的差异):

在此处输入图像描述

在此处输入图像描述

我不确定如何解释图表。它在右上角显示 OK,但 1 处的水平红线似乎表明它处于警报状态。

0 投票
0 回答
278 浏览

amazon-cloudwatch - 如何在 Pulumi 中使用 Step Scaling Policy 设置 Fargate 服务 Auto Scaling?

我正在尝试根据 CloudWatch 警报(命名空间 - AWS/SQS,指标名称 - ApproximateNumberOfMessagesVisible)在 AWS ECS 中自动扩展 Fargate 服务。我设法在 AWS 控制台中做到了这一点,但不是通过代码(在 Pulumi 中)。

我对代码的建议如下:

问题 - 我不知道如何从 my_fargateService 检索自动缩放组(“autoScalingGroupFromFargateService.name”)。

在 AWS 控制台中,我这样做如下图所示: 在此处输入图像描述 在此处输入图像描述

我得到了这个结果: 在此处输入图像描述