← 返回函数库
归一化

LayerNorm

LN(x) = γ · (x − μ) / σ + β

沿最后一维(特征维)归一化,让分布稳定。Transformer 每个子层后必接。γ、β 是可学习的缩放和偏移。

参数

名称类型说明
xtensor [..., d]输入张量
γ, βtensor [d]可学习缩放和偏移
εfloat防除零 (1e-5)

Python 实现

下面是教学用的最小实现,目的是让你看懂原理。生产中请用 PyTorch / TensorFlow 的高性能 op。

python

同类函数