我AWS batch
用于执行作业,我正在计算按内容大小使用的初始内存。大约 90% 的时候它成功,但 10% 的时候它失败了OutOfMemory error
。
因此,对于此失败作业的下一次尝试,我想增加内存并再次提交作业。我不能Job Attempts
为此使用 AWS 批处理,我需要一个不同的FailOver Strategy。
我可以使用的一种方法是让 lambda 每 1 小时检查一次作业状态,如果失败,请使用额外的内存再次提交作业。
还有其他更好的方法来为 AWS Batch 作业设置故障转移策略吗?