因为“原因”,我们知道当我们使用azureml-sdk's时,HyperDriveStep我们预计会有很多HyperDrive次运行失败——通常在 20% 左右。我们如何在不失败整个HyperDriveStep(然后是所有下游步骤)的情况下处理这个问题?以下是管道的示例。
我认为会有一个HyperDriveRunConfig允许这样做的参数,但它似乎不存在。也许这是用参数在管道本身上控制的continue_on_step_failure?
我们正在考虑的解决方法是在我们的train.py脚本中捕获失败的运行并手动将 primary_metric 记录为零。
