该问题的背景是通过study.optimize()
启用默认修剪和学习率作为优化参数来优化神经网络训练的超参数(这个问题可以推广到其他超参数)。
高学习率最初可以产生良好的结果,最初基本上每个中间步骤都会降低损失,但会导致最终结果不佳。
低学习率可能会产生较差的初始结果,但会产生更好的最终值。
启用剪枝后,低学习率不会因为中间结果差而被剪枝吗?这意味着最终的最佳参数将被错误地选择?
如何解决?使用另一个修枝剪有帮助吗?谢谢!
该问题的背景是通过study.optimize()
启用默认修剪和学习率作为优化参数来优化神经网络训练的超参数(这个问题可以推广到其他超参数)。
高学习率最初可以产生良好的结果,最初基本上每个中间步骤都会降低损失,但会导致最终结果不佳。
低学习率可能会产生较差的初始结果,但会产生更好的最终值。
启用剪枝后,低学习率不会因为中间结果差而被剪枝吗?这意味着最终的最佳参数将被错误地选择?
如何解决?使用另一个修枝剪有帮助吗?谢谢!