5

AWS batch用于执行作业,我正在计算按内容大小使用的初始内存。大约 90% 的时候它成功,但 10% 的时候它失败了OutOfMemory error

因此,对于此失败作业的下一次尝试,我想增加内存并再次提交作业。我不能Job Attempts为此使用 AWS 批处理,我需要一个不同的FailOver Strategy

我可以使用的一种方法是让 lambda 每 1 小时检查一次作业状态,如果失败,请使用额外的内存再次提交作业。

还有其他更好的方法来为 AWS Batch 作业设置故障转移策略吗?

4

1 回答 1

0

好问题; 我不知道任何支持此功能的调度程序(LSF、SLURM、AWS Batch),因为恕我直言,调度程序实际上应该做什么——更多的是执行您的工作流程的引擎(想想 nextflow / ehive);

您可以使用 AWS 'containerInsights' 监控容器状态 - 请参阅

https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Container-Insights-metrics-ECS.html

希望这可以帮助你。

于 2019-08-03T01:06:57.423 回答