问题标签 [learning-rate]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - StepLR Learning Rate Scheduler 应用几乎无限小的下降,而且还为时过早
我正在使用带有优化器的StepLR
调度程序:Adam
初始学习率lr设置为 0.1。在第一个 epoch 结束时,情况稳定:
但是当午夜的钟声敲响时,我们进入 epoch1 并且学习率调度器变得疯狂:
- 为什么学习率下降了 10^92 ?
- 为什么学习率在第一个 epoch 而不是 epoch 5 发生变化?
pytorch - 直接更新优化器学习率
我有一个特定的学习率计划。它基于epoch
但不同于我所知道的一般可用的,包括StepLR
.
有没有什么可以相当于:
optimizer.set_lr(lr)
或者
optimizer.set_param('lr,',lr)
然后我会在每个结束时简单地调用该方法epoch
(或者可能更频繁)
上下文:我正在使用adam
优化器:
更新 我发现了这个信息https://discuss.pytorch.org/t/change-learning-rate-in-pytorch/14653:
有没有办法确定正在使用的adam
优化器正在使用新的学习率?
r - 学习率不会影响我在 R 中的人工神经网络
我有以下模型来预测特定社区的房屋价格:
但是,我一直在将学习率从 0.25 更改为 1,并且我的 RMSE 没有任何变化。它既不会变得更糟也不会变得更好,它保持完全相同,即使在改变学习率时也是如此。有人对可能发生的事情有任何暗示吗?
python - 从第 100 个 epoch 开始衰减学习率
知道
有没有办法从第 100 个 epoch 开始衰减学习率?
这是一个好习惯吗:
pytorch - CNNLstm 模型的学习率查找器
我有如下的CNNLstm模型。
由于是 CNNLstm 模型,因此模型的数据输入形状为batch_size、time_steps、channels、height、width。
(8, 1, 3, 300, 300)
要使用torch_lr_finder
,我们需要运行以下代码。
self.train_loader
输出形状为(8, 3, 300, 300)
. 所以在寻找学习率的过程中,self.model
不能使用。
我该如何使用torch_lr_finder
这种模型?
keras - 为什么模型经常受益于在训练期间降低学习率
在 ReduceLROnPlateau 类的 Keras 官方文档(https://keras.io/api/callbacks/reduce_lr_on_plateau/)中,他们提到
“模型通常受益于降低学习率”
为什么呢?至少对我来说这是违反直觉的,因为据我所知 - 更高的学习率允许从我目前的位置采取进一步的措施。
谢谢!
python - 在 Keras 中使用带有 Adam Optimizer 的“Learning Rate Step Decay”调度程序导致 Nan 损失?
我有这个非常深的模型:
我正在尝试使用学习率 Step Decay 来查看我是否可以在训练期间改进我的验证损失函数。我正在为调度程序定义类,如下所示:
然后我开始训练:
但是当我训练时,我得到“nan”损失:
我不明白为什么。问题可能是衰减率,它是 SGD 优化器中存在的一个参数,但文档中的衰减率对于 Adam 不存在,但我没有收到任何错误,所以..有什么想法吗?
machine-learning - 如何在 PyTorch 中实现学习率的随机对数空间搜索?
我希望微调 GNN,我的主管建议探索不同的学习率。我遇到了这个教程视频,他提到在实践中通常会进行超参数的随机日志空间搜索。为了介绍性教程,这没有被涵盖。
非常感谢任何有关如何在 PyTorch 中实现此目的的帮助或指示。谢谢!
deep-learning - Darknet yolo v4 - 如何获得当前的学习率?
当我用 Darknet 训练 yolo v4 时,每秒几次我会得到一个变量列表。有没有一种简单的方法可以让暗网二进制也打印学习率?如果一切都失败了,我将在https://github.com/AlexeyAB/darknet/blob/master/src/detector.c中进行更改并重建,但我真的更愿意避免维护自定义的暗网版本。
tensorflow - 在 TensorFlow/Keras 中恢复训练、使用学习率衰减时的行为是什么?
当使用像下面这样的调度程序时,我很难理解从磁盘加载模型时如何恢复训练。
考虑这种假设情况,我将模型训练了一个 epoch 并保存。后来我加载了模型并再次拟合。在这种情况下,训练是从模型先前保存时的学习率恢复还是从调度程序的预定义配置开始?
编辑
我正在以标准方式保存我的模型,
下面是加载后的优化器配置。学习率配置与定义相同。