← 返回函数库
损失函数

KL Divergence

KL(p ∥ q) = Σᵢ pᵢ log(pᵢ / qᵢ)

KL 全称 Kullback–Leibler(两位发明人姓氏)。衡量两个分布的差异,又叫"相对熵"。非对称(KL(p∥q) ≠ KL(q∥p))。蒸馏(teacher → student)、变分自编码器、RLHF(用人类反馈做强化学习)的常用工具。

参数

名称类型说明
ptensor真实/教师分布
qtensor近似/学生分布

Python 实现

下面是教学用的最小实现,目的是让你看懂原理。生产中请用 PyTorch / TensorFlow 的高性能 op。

python

同类函数