沿最后一维(特征维)归一化,让分布稳定。Transformer 每个子层后必接。γ、β 是可学习的缩放和偏移。
下面是教学用的最小实现,目的是让你看懂原理。生产中请用 PyTorch / TensorFlow 的高性能 op。