模块 10 · 最后一节 · 课程收尾 + 实战路线
实战项目:自己跑通 nanoGPT
课程到这里就结束了。你已经看完了从 token 到 RLHF、从 attention 到 INT4 量化的全套基础。 但看懂和能写之间还有一道坎 —— 这一节是你过坎的"路标":把所有零件串起来跑通一个真正的迷你 GPT。
① 回顾:这门课讲了什么
9 节课你已经掌握的概念地图(点链接可以回去复习):
| 模块 | 关键概念 |
|---|---|
| 01 什么是语言模型 | 概率分布、采样、温度 |
| 02 Tokenization | BPE 切词,连接文本与数字 |
| 03 Embeddings | 把 token 变成稠密向量,建立语义距离 |
| 04 Bigram → MLP | 从查表到神经网络的进化 |
| 05 Attention | Q/K/V,让 token 互相"看" |
| 06 Transformer | attention + FFN + 残差 + LN 拼成 Block,堆 N 层 |
| 07 训练 | 交叉熵 + 反向传播 + AdamW + lr schedule |
| 08 SFT + RLHF | 从基座到助手的三阶段 |
| 09 推理 + 量化 | KV cache + INT4,让模型跑得起来 |
把这张表打印出来挂墙上 —— 它就是「大模型基础」的全套地图。看 paper、读源码、和人讨论时,能随时回这上面定位概念。
② 推荐路径:跑通 nanoGPT
强烈推荐Karpathy 的 nanoGPT 作为你的第一个实操项目。原因:
- 足够简单 —— 整个项目不到 500 行 PyTorch,比看任何论文都直观
- 足够完整 —— 涵盖了 model + train + sample,能从零训出一个真的能"说话"的模型
- 能小能大 —— 字符级小模型笔记本就能训;config 改大点直接复现 GPT-2
③ nanoGPT 的代码全貌 ↔ 你学的每一节
下面这段是 nanoGPT 模型部分的"骨架"。每一段对应本课的哪一节都标出来了:
python
直接编辑这段代码即可。输入
np. 看自动提示,⌘/Ctrl + Enter运行。④ 实战 checklist
建议你这周内做完这 5 步:
python
直接编辑这段代码即可。输入
np. 看自动提示,⌘/Ctrl + Enter运行。⑤ 配置建议:在你自己机器上能跑的版本
| 硬件 | 推荐 config | 参数量 | 语料 | 训练时间 |
|---|---|---|---|---|
| 仅 CPU | n_layer=4, n_head=4, n_embd=128 | ~0.5M | Shakespeare-char | ~30 分钟 |
| MacBook M1/M2 | n_layer=6, n_head=6, n_embd=384 | ~10M | 中文小说 100MB | ~2 小时 |
| RTX 3090 / 4090 | n_layer=12, n_head=12, n_embd=768 | ~124M (GPT-2 small) | OpenWebText | ~4 天 |
⑥ 学完之后去哪
课程是基础,但 LLM 这个领域每周都有新东西。下面是几条"接下来去哪"的方向:
实现方向(写代码)
- Karpathy/llm.c —— 纯 C 实现 GPT-2 训练,让你看清 PyTorch 在底下到底做了什么
- Karpathy/makemore —— 从 Bigram → MLP → WaveNet → Transformer 一步步演化,4 期 YouTube 视频每期都值得看
- HuggingFace Transformers —— 工业级实现,看
modeling_llama.py等会让 nanoGPT 的"简化版"在你脑里变成"完整版"
研究方向(读论文)
- Mixture of Experts(Mixtral、DeepSeek-MoE)—— 万亿模型怎么稀疏化
- Long Context(RoPE 外推、StreamingLLM、Mamba)—— 让上下文从 4k 拉到 100k+
- Mechanistic Interpretability(Anthropic 的 Circuits 系列)—— 看模型内部到底发生了什么
- RLHF/DPO 之后(RLAIF、Constitutional AI、SPIN)—— 对齐研究的最新进展
应用方向(建产品)
- 本地推理:llama.cpp + Ollama,让自己用得起 LLM
- RAG(检索增强生成):vector DB + embedding,让 LLM 知道你的私有数据
- Agent:让 LLM 调用工具、写代码、上网 —— Claude Code、cursor 等都是这条路上的成果
⑦ 最后的话
看完这门课,你已经具备"看懂大模型源码"的基础。 但真正"学会"一件事,必须自己动手。理论看得再清楚,比不上跑通一遍 train.py、看 loss 从 10 降到 2、采样出第一句通顺的话。
从 token、embedding、attention、Transformer、训练、推理 —— 这些零件你现在都认识了。 接下来一个礼拜,去把 nanoGPT 跑通。 在自己机器上看到模型生成出"今天天气真好,适合"这种它真的从数据里学出来的句子时, 所有公式都会变成具体的、可触摸的东西。
祝你享受这个过程。
⑧ 一道小测验 收尾
Q1.看完前 9 节后,自己跑通 nanoGPT 训练时最容易踩的坑是?
⑨ 延伸阅读(精选)
- karpathy/nanoGPT:本节的主线项目
- Karpathy — Zero to Hero (YouTube 系列):本课内容的视频版,比阅读更直观
- Anthropic Research:研究 LLM 内部工作原理(mechanistic interpretability)最深的团队
- Chip Huyen — Building LLM applications for production:从研究到落地的工程视角