← 返回函数库
优化器

学习率 Warmup

lr(t) = lr_max · min(1, t / t_warmup)

训练开始时学习率从 0 线性涨到最大值,再开始按计划衰减。防止刚开始大梯度把权重打飞。Transformer 训练必备。

Python 实现

下面是教学用的最小实现,目的是让你看懂原理。生产中请用 PyTorch / TensorFlow 的高性能 op。

python

同类函数