进阶 · 10 节
LLM 原理课
从直觉到 nanoGPT
面向工程师的交互式语言模型原理课。每一节都配可玩的可视化、可运行的代码、小测验。学完十个模块,你应该能自己写出一个 nanoGPT。
课程目录
模块 01开始学习 →
什么是语言模型
从下一个 token 的概率分布讲起,理解模型在做什么。
模块 02开始学习 →
Tokenization
文字如何变成数字:BPE、tokenizer 对比。
模块 03开始学习 →
词向量 / Embedding
语义如何在向量空间中表达,king - man + woman = ?
模块 04开始学习 →
从 Bigram 到 MLP
在浏览器里训练一个最小的字符级语言模型。
模块 05开始学习 →
注意力机制
Q/K/V 是什么,attention 热力图怎么算出来的。
模块 06开始学习 →
Transformer 完整架构
把所有组件拼起来:embedding → blocks → output。
模块 07开始学习 →
训练循环
Loss 从乱码降到莎士比亚的全过程。
模块 08开始学习 →
预训练 → 微调 → RLHF
模型为什么会"听话":三个阶段对比。
模块 09开始学习 →
推理与量化
笔记本上跑大模型:KV cache、INT4 量化。
模块 10开始学习 →
实战项目
在浏览器里训练并部署一个迷你模型。