← 返回函数库
位置编码

ALiBi

scores[i,j] += −m · (i − j)

ALiBi 全称 Attention with Linear Biases("带线性偏置的注意力")。不加位置编码,而是在注意力分数上直接加距离惩罚 — 距离越远扣分越多。外推性强(训练时见过 2k,推理时拉到 8k 也能用)。

Python 实现

下面是教学用的最小实现,目的是让你看懂原理。生产中请用 PyTorch / TensorFlow 的高性能 op。

python

同类函数