← 返回函数库
激活函数

GELU

GELU(x) = x · Φ(x) ≈ 0.5x(1 + erf(x/√2))

GELU 全称 Gaussian Error Linear Unit("高斯误差线性单元")。GPT / BERT / LLaMA 等大模型的标配激活。比 ReLU 平滑,负区间也有少量信号,被认为优于 ReLU。

参数

名称类型说明
xfloat | tensor输入

Python 实现

下面是教学用的最小实现,目的是让你看懂原理。生产中请用 PyTorch / TensorFlow 的高性能 op。

python

在计算器里试试

打开底部工具栏的「计算器」,把下面这个表达式贴进表达式输入框,拖动参数滑块看曲线变化:

0.5 * x * (1 + erf(x / sqrt(2)))

GELU 精确形式

同类函数