deep-learning - MXNet AdamW 优化器

Question

Adam 优化器在与权重衰减一起使用时存在缺陷。2018 年提出了 AdamW 优化器。

在 MXNet 框架（python 实现）中实现 AdamW 有什么标准方法吗？有mxnet.optimizer.Adam类，但没有类mxnet.optimizer.AdamW（签入mxnet-cu102==1.6.0，mxnet==1.5.0包版本）。

PS 我在 MXNet 论坛和datascience.stackexchange.com上问过这个问题，但无济于事。

score 1 · Accepted Answer

简短的回答：目前还没有在 Gluon 中使用 AdamW 的标准方法，但是在这个方向上有一些现有的工作可以使添加相对容易。

更长的答案：

人们一直在要求这个功能 - 很多:) 见：https ://github.com/apache/incubator-mxnet/issues/9182
Gluon-NLP 有一个工作版本的 AdamW - 可能与原始论文中的版本略有不同：https ://github.com/eric-haibin-lin/gluon-nlp/blob/df63e2c2a4d6b998289c25a38ffec8f4ff647ff4/src/gluonnlp/optimizer/bert_adam .py
该adamw_update()拉取请求添加了操作员：https ://github.com/apache/incubator-mxnet/pull/13728 这是在 MXNet 1.6.0 中首次发布的。
不幸的是，现在似乎没有办法gluon.Trainer直接使用它，而无需复制/修改BERTAdam代码（或从头开始编写类似的东西）。添加到 Gluon将是一件非常好的事情。

请让我知道您是否可以使用它，因为我也希望能够使用它。

1 回答 1