← 返回函数库
注意力
Causal Mask
M[i,j] = 1 if j ≤ i else 0
GPT 类自回归模型的关键:让位置 i 只能看到 ≤ i 的位置,防止"作弊"看到未来 token。
Python 实现
下面是教学用的最小实现,目的是让你看懂原理。生产中请用 PyTorch / TensorFlow 的高性能 op。
python
GPT 类自回归模型的关键:让位置 i 只能看到 ≤ i 的位置,防止"作弊"看到未来 token。
下面是教学用的最小实现,目的是让你看懂原理。生产中请用 PyTorch / TensorFlow 的高性能 op。