← 返回函数库
激活函数
Softmax
softmax(xᵢ) = e^(xᵢ/T) / Σⱼ e^(xⱼ/T)
把任意一组数(logits)转成离散概率分布。神经网络多分类输出、注意力分数归一化、语言模型 token 采样的核心。T 是温度。
参数
| 名称 | 类型 | 说明 |
|---|---|---|
| x | tensor [..., N] | logits 向量 |
| T | float | 温度。T→0 极度尖锐(贪心),T 大趋于均匀 |
| axis | int | 沿哪个维度做归一化 |
返回与输入同形状的概率向量,沿 axis 加起来等于 1
Python 实现
下面是教学用的最小实现,目的是让你看懂原理。生产中请用 PyTorch / TensorFlow 的高性能 op。
python
在计算器里试试
打开底部工具栏的「计算器」,把下面这个表达式贴进表达式输入框,拖动参数滑块看曲线变化:
exp(x/T) / (exp(x/T) + 1)
二分类版(含 T 滑块)