← 返回函数库
注意力

Causal Mask

M[i,j] = 1 if j ≤ i else 0

GPT 类自回归模型的关键:让位置 i 只能看到 ≤ i 的位置,防止"作弊"看到未来 token。

Python 实现

下面是教学用的最小实现,目的是让你看懂原理。生产中请用 PyTorch / TensorFlow 的高性能 op。

python

同类函数