ALiBi 全称 Attention with Linear Biases("带线性偏置的注意力")。不加位置编码,而是在注意力分数上直接加距离惩罚 — 距离越远扣分越多。外推性强(训练时见过 2k,推理时拉到 8k 也能用)。
下面是教学用的最小实现,目的是让你看懂原理。生产中请用 PyTorch / TensorFlow 的高性能 op。