我正在使用 KerasTuner 进行超参数调整。我通常使用 Hyperband,但我觉得它不适用于学习率,因为该算法在初始阶段训练模型的时间非常少,然后只进一步训练更有希望的超参数组合。因此,在所有其他超参数保持不变的情况下,与较小的 Lr(例如 1e-3)相比,高 Lr(例如 1e-2)将有更多机会在 Hyperband 的早期阶段被选中,但不能保证它确实是最好的经过充分的训练。
我错了吗 ?
最好的,
我正在使用 KerasTuner 进行超参数调整。我通常使用 Hyperband,但我觉得它不适用于学习率,因为该算法在初始阶段训练模型的时间非常少,然后只进一步训练更有希望的超参数组合。因此,在所有其他超参数保持不变的情况下,与较小的 Lr(例如 1e-3)相比,高 Lr(例如 1e-2)将有更多机会在 Hyperband 的早期阶段被选中,但不能保证它确实是最好的经过充分的训练。
我错了吗 ?
最好的,