原版 Transformer 的位置编码。用不同频率的正余弦,让模型感知相对位置,且能外推到训练时没见过的更长序列。
下面是教学用的最小实现,目的是让你看懂原理。生产中请用 PyTorch / TensorFlow 的高性能 op。