← 返回函数库
优化器

Adam

m,v 滑动平均 → 自适应步长

Adam 全称 Adaptive Moment estimation("自适应矩估计")。同时维护梯度一阶矩(动量)和二阶矩(方差),给每个参数自适应学习率,对超参不敏感,深度学习默认优化器之一。

参数

名称类型说明
lrfloat学习率,常用 1e-3
β₁float一阶矩衰减 (0.9)
β₂float二阶矩衰减 (0.999)
εfloat防除零 (1e-8)

Python 实现

下面是教学用的最小实现,目的是让你看懂原理。生产中请用 PyTorch / TensorFlow 的高性能 op。

python

同类函数