注意力

Scaled Dot-Product Attention

Attention(Q,K,V) = softmax(QKᵀ/√d_k) V

Transformer 的核心。Q 和 K 做点积算相似度，除以 √d_k 防止数值爆炸，softmax 归一化后加权聚合 V。

参数

返回注意力加权后的 V，形状 [..., L, d_v]

下面是教学用的最小实现，目的是让你看懂原理。生产中请用 PyTorch / TensorFlow 的高性能 op。

python