← 返回函数库
损失函数

Cross-Entropy

H(p, q) = −Σᵢ pᵢ log qᵢ

语言模型最核心的损失。p 是真实分布(通常 one-hot),q 是预测分布。对正确类的预测概率取 -log。

参数

名称类型说明
ptensor真实分布(one-hot 或软标签)
qtensor预测分布(softmax 输出)

Python 实现

下面是教学用的最小实现,目的是让你看懂原理。生产中请用 PyTorch / TensorFlow 的高性能 op。

python

在计算器里试试

打开底部工具栏的「计算器」,把下面这个表达式贴进表达式输入框,拖动参数滑块看曲线变化:

-log(x)

一类版 -log(p)

同类函数

LLM 原理课 — 从直觉到 nanoGPT