5

我有一个在 AWS Elastic Container Service 中运行的 Java 应用程序。应用程序定期轮询队列。有时队列没有响应并且应用程序永远挂起。我已经用带有日志异常的 try-catch 块封装了这些方法。即使在那之后 Cloudwatch 中没有日志。没有异常或错误。有没有办法可以识别这种情况。? (Cloudwatch 中没有日志)。就像过滤错误日志模式一样。所以我可以重新启动服务。任何技巧或解决方案将不胜感激。

public void handleProcess() {
    try {
        while(true) {
            Response response = QueueUitils.pollQueue(); // poll the queue
            QueueUitils.processMessage(response);
            TimeUnit.SECONDS.sleep(WAIT_TIME); // WAIT_TIME = 20
        }
    } catch (Exception e) {
        LOGGER.error("Data Queue operation failed" + e.getMessage());
        throw e;
    }
}
4

2 回答 2

4

您可以使用 CloudWatch 警报执行此操作。我为此设置了一个测试 Lambda 函数,它每分钟运行一次并记录到 CloudWatch。

  1. 转到 CloudWatch 并单击左侧菜单中的警报
  2. 单击橙色的创建警报按钮 创建警报
  3. 单击选择指标 选择指标
  4. 然后选择Logs,然后选择Log Group Metrics并选择IncomingLogEvents相关日志组的指标(您的应用程序正在记录的日志组)。在我的情况下/aws/lambda/test-log-silence 选择日志组指标
  5. 单击选择指标
  6. 现在您可以指定要如何衡量指标。我选择了超过 5 分钟的平均日志条目,因此如果 5 分钟后没有日志条目,该值将为零。 指定公制测量
  7. 向下滚动,您将检查设置为“低于或等于”零。这将在 5 分钟内没有日志条目(或您决定设置的任何值)时触发警报。 指定条件
  8. 现在点击下一步,您可以指定一个 SNS 主题来推送通知。您可以设置 SNS 主题以通过电子邮件、SMS、AWS Lambda 等方式通知您。
于 2020-09-19T06:46:23.067 回答
2

参考brads3290的回答,如果您使用的是 AWS CDK:

import * as cloudwatch from '@aws-cdk/aws-cloudwatch'; 
// ...
const metric = new cloudwatch.Metric({
      namespace: 'AWS/Logs',
      metricName: 'IncomingLogEvents',
      dimensions: { LogGroupName: '/aws/lambda/test-log-silence' },
      statistic: "Average",
      period: cdk.Duration.minutes(5),
    });

const alarm = new cloudwatch.Alarm(this, 'Alarm', {
      metric,
      threshold: 0,
      comparisonOperator: cloudwatch.ComparisonOperator.LESS_THAN_OR_EQUAL_TO_THRESHOLD,
      evaluationPeriods: 1,
      datapointsToAlarm: 1,
      treatMissingData: cloudwatch.TreatMissingData.BREACHING,
    });

这也应该解决忽略丢失数据的问题。

于 2021-04-23T04:55:01.150 回答