← 返回函数库
注意力
Multi-Head Attention
MHA = Concat(head₁,…,headₕ) Wᴼ
把 Q/K/V 投影到多个低维子空间并行做注意力,再拼接。让模型从不同角度看序列。
参数
| 名称 | 类型 | 说明 |
|---|---|---|
| h | int | 头数 |
| d_model | int | 模型主维度 |
Python 实现
下面是教学用的最小实现,目的是让你看懂原理。生产中请用 PyTorch / TensorFlow 的高性能 op。
python