Adam 优化器在与权重衰减一起使用时存在缺陷。2018 年提出了 AdamW 优化器。
在 MXNet 框架(python 实现)中实现 AdamW 有什么标准方法吗?有mxnet.optimizer.Adam
类,但没有类mxnet.optimizer.AdamW
(签入mxnet-cu102==1.6.0
,mxnet==1.5.0
包版本)。
PS 我在 MXNet 论坛和datascience.stackexchange.com上问过这个问题,但无济于事。
Adam 优化器在与权重衰减一起使用时存在缺陷。2018 年提出了 AdamW 优化器。
在 MXNet 框架(python 实现)中实现 AdamW 有什么标准方法吗?有mxnet.optimizer.Adam
类,但没有类mxnet.optimizer.AdamW
(签入mxnet-cu102==1.6.0
,mxnet==1.5.0
包版本)。
PS 我在 MXNet 论坛和datascience.stackexchange.com上问过这个问题,但无济于事。
简短的回答:目前还没有在 Gluon 中使用 AdamW 的标准方法,但是在这个方向上有一些现有的工作可以使添加相对容易。
更长的答案:
人们一直在要求这个功能 - 很多:) 见:https ://github.com/apache/incubator-mxnet/issues/9182
Gluon-NLP 有一个工作版本的 AdamW - 可能与原始论文中的版本略有不同:https ://github.com/eric-haibin-lin/gluon-nlp/blob/df63e2c2a4d6b998289c25a38ffec8f4ff647ff4/src/gluonnlp/optimizer/bert_adam .py
该adamw_update()
拉取请求添加了操作员:https ://github.com/apache/incubator-mxnet/pull/13728 这是在 MXNet 1.6.0 中首次发布的。
不幸的是,现在似乎没有办法gluon.Trainer
直接使用它,而无需复制/修改BERTAdam
代码(或从头开始编写类似的东西)。添加到 Gluon将是一件非常好的事情。
请让我知道您是否可以使用它,因为我也希望能够使用它。