RMS 全称 Root Mean Square("均方根")。LayerNorm 的简化版:去掉减均值,只用 RMS 缩放。计算更便宜,LLaMA、T5 用它替代 LayerNorm。
下面是教学用的最小实现,目的是让你看懂原理。生产中请用 PyTorch / TensorFlow 的高性能 op。