RoPE 全称 Rotary Position Embedding("旋转位置编码")。LLaMA、GPT-NeoX、PaLM 都用它。把位置信息以二维旋转的方式注入 Q 和 K,让点积自然包含相对位置。
下面是教学用的最小实现,目的是让你看懂原理。生产中请用 PyTorch / TensorFlow 的高性能 op。