← 返回函数库
注意力
Scaled Dot-Product Attention
Attention(Q,K,V) = softmax(QKᵀ/√d_k) V
Transformer 的核心。Q 和 K 做点积算相似度,除以 √d_k 防止数值爆炸,softmax 归一化后加权聚合 V。
参数
| 名称 | 类型 | 说明 |
|---|---|---|
| Q | tensor [..., L, d_k] | Query 矩阵 |
| K | tensor [..., L, d_k] | Key 矩阵 |
| V | tensor [..., L, d_v] | Value 矩阵 |
| mask | tensor | 可选 mask(如因果遮罩) |
返回注意力加权后的 V,形状 [..., L, d_v]
Python 实现
下面是教学用的最小实现,目的是让你看懂原理。生产中请用 PyTorch / TensorFlow 的高性能 op。
python