进阶 · 19 节

LLM 原理课

从直觉到 nanoGPT，附 12 个数学速通

19 节交互式课程 + 12 个数学速通 Hub —— 从图灵测试到 Agent，带你自己写出 nanoGPT 并理解 ChatGPT 怎么工作。

课程目录

模块 00· 试学开始学习 →

LLM 50 年简史

从图灵测试到 ChatGPT —— 给读者一个坐标系，再开始学技术细节。

模块 01🔒 登录解锁

什么是语言模型

从下一个 token 的概率分布讲起，理解模型在做什么。

模块 02🔒 登录解锁

文字如何变成数字：BPE、tokenizer 对比。

模块 03🔒 登录解锁

词向量 / Embedding

语义如何在向量空间中表达，king - man + woman = ?

模块 04🔒 登录解锁

从 Bigram 到 MLP

在浏览器里训练一个最小的字符级语言模型。

模块 05🔒 登录解锁

注意力（一）：QKV 与公式

从图书馆类比到 softmax(QKᵀ/√d_k)V —— 注意力的核心数学。

模块 06🔒 登录解锁

注意力（二）：Mask + 多头

Causal mask 禁看未来 + 8 个观察员同时看一句话。

模块 07🔒 登录解锁

Transformer 完整架构

把所有组件拼起来：embedding → blocks → output。

模块 08🔒 登录解锁

Loss 从乱码降到莎士比亚的全过程。

模块 09🔒 登录解锁

预训练 → SFT：教模型听话

base 模型 → SFT → 偏好数据 —— 对齐的前两阶段。

模块 10🔒 登录解锁

RLHF + DPO：用偏好训练

奖励模型 + PPO + KL 散度 / DPO 简化 / RLAIF/CAI 现代变体。

模块 11🔒 登录解锁

推理与量化

笔记本上跑大模型：KV cache、INT4 量化。

模块 12🔒 登录解锁

数据：模型吃什么

Common Crawl / The Pile / 合成数据 —— 决定模型上限的关键。

模块 13🔒 登录解锁

评估：好不好怎么测

MMLU / HumanEval / Arena —— LLM 圈的高考和奥运会怎么排名。

模块 14🔒 登录解锁

安全：对齐为什么会失败

jailbreak / 幻觉 / 提示注入 —— LLM 阴暗角落的工程现实。

模块 15🔒 登录解锁

涌现 + CoT + o1：推理时代

为什么大到一定程度突然会做数学？思维链怎么让模型学会推理？

模块 16🔒 登录解锁

RAG：让模型联网

解决知识截止问题 / 减少幻觉 / 私有知识库问答 —— RAG 全栈。

模块 17🔒 登录解锁

Agent：让模型动手

Function calling / ReAct / 工具使用 —— LLM 从"对话框"到"做事的人"。

模块 18🔒 登录解锁

实战项目 nanoGPT

在浏览器里训练并部署一个迷你模型。