← 返回函数库
注意力

Scaled Dot-Product Attention

Attention(Q,K,V) = softmax(QKᵀ/√d_k) V

Transformer 的核心。Q 和 K 做点积算相似度,除以 √d_k 防止数值爆炸,softmax 归一化后加权聚合 V。

参数

名称类型说明
Qtensor [..., L, d_k]Query 矩阵
Ktensor [..., L, d_k]Key 矩阵
Vtensor [..., L, d_v]Value 矩阵
masktensor可选 mask(如因果遮罩)

返回注意力加权后的 V,形状 [..., L, d_v]

Python 实现

下面是教学用的最小实现,目的是让你看懂原理。生产中请用 PyTorch / TensorFlow 的高性能 op。

python

同类函数