← 返回函数库
损失函数
KL Divergence
KL(p ∥ q) = Σᵢ pᵢ log(pᵢ / qᵢ)
KL 全称 Kullback–Leibler(两位发明人姓氏)。衡量两个分布的差异,又叫"相对熵"。非对称(KL(p∥q) ≠ KL(q∥p))。蒸馏(teacher → student)、变分自编码器、RLHF(用人类反馈做强化学习)的常用工具。
参数
| 名称 | 类型 | 说明 |
|---|---|---|
| p | tensor | 真实/教师分布 |
| q | tensor | 近似/学生分布 |
Python 实现
下面是教学用的最小实现,目的是让你看懂原理。生产中请用 PyTorch / TensorFlow 的高性能 op。
python