我有一个触发每周运行的 Lambda,如果它连续 7 天以上没有运行,我希望有一个 CloudWatch 警报。
我的想法是,Alarm if < 1 invocation for 8 days
但似乎不可能将其设置为超过 24 小时:
警报评估周期(数据点数乘以指标周期)不得超过 24 小时。
是否有其他方法可以确保执行超过 24 小时触发的 Lambda?
我有一个触发每周运行的 Lambda,如果它连续 7 天以上没有运行,我希望有一个 CloudWatch 警报。
我的想法是,Alarm if < 1 invocation for 8 days
但似乎不可能将其设置为超过 24 小时:
警报评估周期(数据点数乘以指标周期)不得超过 24 小时。
是否有其他方法可以确保执行超过 24 小时触发的 Lambda?
最长评估期为 24 小时。
您可以通过使用CloudWatch PutMetricData API创建自定义指标来解决此问题。您可以发布自上次执行 lambda 函数以来经过的时间,然后在该值超过 8 天时发出警报。
一种方法是让您的 lambda 函数在每次触发时将执行时间戳存储到 DynamoDB。然后,您可以创建一个新函数,该函数将从 DynamoDB 读取该时间戳并将其与当前时间之间的差异发布到自定义指标(例如,每 1 小时触发一次 lambda)。
一旦您有了新的自定义指标,您可以创建一个警报,如果一个 1h 数据点的值超过 8 天,将触发该警报(这将解决您的初始问题)。您还可以将“将丢失的数据视为”选项设置为错误 - 违反阈值(如果第二个 lambda 函数未触发,这将提醒您)。
您还应该针对CloudWatch Events 错误和Lambda 错误设置警报。如果调度或 lambda 本身出现问题,这将提醒您。但是我上面提到的自定义指标也会在出现人为错误的情况下提醒您,例如有人错误地禁用或删除了事件或功能。