训练开始时学习率从 0 线性涨到最大值,再开始按计划衰减。防止刚开始大梯度把权重打飞。Transformer 训练必备。
下面是教学用的最小实现,目的是让你看懂原理。生产中请用 PyTorch / TensorFlow 的高性能 op。