← 返回函数库
优化器
AdamW
Adam + 解耦权重衰减
AdamW = Adam + Weight decay decoupled("Adam 加上解耦的权重衰减")。Adam 把 L2 正则糅在梯度里有偏差,AdamW 把权重衰减拆出来直接乘到参数上。大模型几乎都用 AdamW。
参数
| 名称 | 类型 | 说明 |
|---|---|---|
| weight_decay | float | 权重衰减 (0.01 ~ 0.1) |
Python 实现
下面是教学用的最小实现,目的是让你看懂原理。生产中请用 PyTorch / TensorFlow 的高性能 op。
python