沿 batch 维归一化。CNN 常用,但 Transformer 几乎不用(依赖 batch 统计、序列长度不固定)。
下面是教学用的最小实现,目的是让你看懂原理。生产中请用 PyTorch / TensorFlow 的高性能 op。