因为“原因”,我们知道当我们使用azureml-sdk
's时,HyperDriveStep
我们预计会有很多HyperDrive
次运行失败——通常在 20% 左右。我们如何在不失败整个HyperDriveStep
(然后是所有下游步骤)的情况下处理这个问题?以下是管道的示例。
我认为会有一个HyperDriveRunConfig
允许这样做的参数,但它似乎不存在。也许这是用参数在管道本身上控制的continue_on_step_failure
?
我们正在考虑的解决方法是在我们的train.py
脚本中捕获失败的运行并手动将 primary_metric 记录为零。