← 返回函数库
激活函数
GELU
GELU(x) = x · Φ(x) ≈ 0.5x(1 + erf(x/√2))
GELU 全称 Gaussian Error Linear Unit("高斯误差线性单元")。GPT / BERT / LLaMA 等大模型的标配激活。比 ReLU 平滑,负区间也有少量信号,被认为优于 ReLU。
参数
| 名称 | 类型 | 说明 |
|---|---|---|
| x | float | tensor | 输入 |
Python 实现
下面是教学用的最小实现,目的是让你看懂原理。生产中请用 PyTorch / TensorFlow 的高性能 op。
python
在计算器里试试
打开底部工具栏的「计算器」,把下面这个表达式贴进表达式输入框,拖动参数滑块看曲线变化:
0.5 * x * (1 + erf(x / sqrt(2)))
GELU 精确形式