← 返回函数库
优化器

AdamW

Adam + 解耦权重衰减

AdamW = Adam + Weight decay decoupled("Adam 加上解耦的权重衰减")。Adam 把 L2 正则糅在梯度里有偏差,AdamW 把权重衰减拆出来直接乘到参数上。大模型几乎都用 AdamW。

参数

名称类型说明
weight_decayfloat权重衰减 (0.01 ~ 0.1)

Python 实现

下面是教学用的最小实现,目的是让你看懂原理。生产中请用 PyTorch / TensorFlow 的高性能 op。

python

同类函数