我正在使用自定义容器运行超参数调整作业。当我以少量步骤运行作业时,一切正常。问题在于更多的步骤(这意味着更长的工作) - 它们以信息量不大的消息“当前尝试发生内部错误”结束。
我有3个怀疑:
我的机器配置不是最优的——我的工作是用 numpy 进行大量计算。我注意到主机、参数服务器和工作人员的 CPU 使用率在所有试验中都在 100% 左右。老实说,我希望它 100% 仅适用于工人(或 100% 仅适用于 master,因为我不进行分布式培训)。所以这意味着我不太明白这些不同的机器类型是如何用于超参数调优的。我无法找到有关它的任何详细资源。
中间数据每隔几步保存一次。可能是我存的太多了?有没有办法检查机器的存储使用情况?
Google 基础架构存在问题。
下面是我的配置文件的开头。
trainingInput:
scaleTier: CUSTOM
masterType: n1-highcpu-16
workerType: n1-highcpu-16
parameterServerType: n1-standard-4
evaluatorType: n1-standard-4
workerCount: 4
parameterServerCount: 1
evaluatorCount: 1
hyperparameters:
goal: MINIMIZE
hyperparameterMetricTag: "cumulative_regret"
maxTrials: 108
maxParallelTrials: 4
enableTrialEarlyStopping: False
algorithm: GRID_SEARCH