← 返回函数库
注意力

Multi-Head Attention

MHA = Concat(head₁,…,headₕ) Wᴼ

把 Q/K/V 投影到多个低维子空间并行做注意力,再拼接。让模型从不同角度看序列。

参数

名称类型说明
hint头数
d_modelint模型主维度

Python 实现

下面是教学用的最小实现,目的是让你看懂原理。生产中请用 PyTorch / TensorFlow 的高性能 op。

python

同类函数