注意力

Multi-Head Attention

MHA = Concat(head₁,…,headₕ) Wᴼ

把 Q/K/V 投影到多个低维子空间并行做注意力，再拼接。让模型从不同角度看序列。

参数

名称	类型	说明
h	int	头数
d_model	int	模型主维度

下面是教学用的最小实现，目的是让你看懂原理。生产中请用 PyTorch / TensorFlow 的高性能 op。

python