← 返回函数库
优化器
Adam
m,v 滑动平均 → 自适应步长
Adam 全称 Adaptive Moment estimation("自适应矩估计")。同时维护梯度一阶矩(动量)和二阶矩(方差),给每个参数自适应学习率,对超参不敏感,深度学习默认优化器之一。
参数
| 名称 | 类型 | 说明 |
|---|---|---|
| lr | float | 学习率,常用 1e-3 |
| β₁ | float | 一阶矩衰减 (0.9) |
| β₂ | float | 二阶矩衰减 (0.999) |
| ε | float | 防除零 (1e-8) |
Python 实现
下面是教学用的最小实现,目的是让你看懂原理。生产中请用 PyTorch / TensorFlow 的高性能 op。
python