模块 10 · 最后一节 · 课程收尾 + 实战路线

实战项目：自己跑通 nanoGPT

课程到这里就结束了。你已经看完了从 token 到 RLHF、从 attention 到 INT4 量化的全套基础。但看懂和能写之间还有一道坎 —— 这一节是你过坎的"路标"：把所有零件串起来跑通一个真正的迷你 GPT。

① 回顾：这门课讲了什么

9 节课你已经掌握的概念地图（点链接可以回去复习）：

模块	关键概念
01 什么是语言模型	概率分布、采样、温度
02 Tokenization	BPE 切词，连接文本与数字
03 Embeddings	把 token 变成稠密向量，建立语义距离
04 Bigram → MLP	从查表到神经网络的进化
05 Attention	Q/K/V，让 token 互相"看"
06 Transformer	attention + FFN + 残差 + LN 拼成 Block，堆 N 层
07 训练	交叉熵 + 反向传播 + AdamW + lr schedule
08 SFT + RLHF	从基座到助手的三阶段
09 推理 + 量化	KV cache + INT4，让模型跑得起来

把这张表打印出来挂墙上 —— 它就是「大模型基础」的全套地图。看 paper、读源码、和人讨论时，能随时回这上面定位概念。

② 推荐路径：跑通 nanoGPT

强烈推荐Karpathy 的 nanoGPT 作为你的第一个实操项目。原因：

足够简单 —— 整个项目不到 500 行 PyTorch，比看任何论文都直观
足够完整 —— 涵盖了 model + train + sample，能从零训出一个真的能"说话"的模型
能小能大 —— 字符级小模型笔记本就能训；config 改大点直接复现 GPT-2

③ nanoGPT 的代码全貌 ↔ 你学的每一节

下面这段是 nanoGPT 模型部分的"骨架"。每一段对应本课的哪一节都标出来了：

python

直接编辑这段代码即可。输入 np. 看自动提示，⌘/Ctrl + Enter运行。

④ 实战 checklist

建议你这周内做完这 5 步：

python

直接编辑这段代码即可。输入 np. 看自动提示，⌘/Ctrl + Enter运行。

⑤ 配置建议：在你自己机器上能跑的版本

硬件	推荐 config	参数量	语料	训练时间
仅 CPU	n_layer=4, n_head=4, n_embd=128	~0.5M	Shakespeare-char	~30 分钟
MacBook M1/M2	n_layer=6, n_head=6, n_embd=384	~10M	中文小说 100MB	~2 小时
RTX 3090 / 4090	n_layer=12, n_head=12, n_embd=768	~124M (GPT-2 small)	OpenWebText	~4 天

⑥ 学完之后去哪

课程是基础，但 LLM 这个领域每周都有新东西。下面是几条"接下来去哪"的方向：

实现方向（写代码）

Karpathy/llm.c —— 纯 C 实现 GPT-2 训练，让你看清 PyTorch 在底下到底做了什么
Karpathy/makemore —— 从 Bigram → MLP → WaveNet → Transformer 一步步演化，4 期 YouTube 视频每期都值得看
HuggingFace Transformers —— 工业级实现，看 modeling_llama.py 等会让 nanoGPT 的"简化版"在你脑里变成"完整版"

研究方向（读论文）

Mixture of Experts（Mixtral、DeepSeek-MoE）—— 万亿模型怎么稀疏化
Long Context（RoPE 外推、StreamingLLM、Mamba）—— 让上下文从 4k 拉到 100k+
Mechanistic Interpretability（Anthropic 的 Circuits 系列）—— 看模型内部到底发生了什么
RLHF/DPO 之后（RLAIF、Constitutional AI、SPIN）—— 对齐研究的最新进展

应用方向（建产品）

本地推理：llama.cpp + Ollama，让自己用得起 LLM
RAG（检索增强生成）：vector DB + embedding，让 LLM 知道你的私有数据
Agent：让 LLM 调用工具、写代码、上网 —— Claude Code、cursor 等都是这条路上的成果

⑦ 最后的话

看完这门课，你已经具备"看懂大模型源码"的基础。但真正"学会"一件事，必须自己动手。理论看得再清楚，比不上跑通一遍 train.py、看 loss 从 10 降到 2、采样出第一句通顺的话。

从 token、embedding、attention、Transformer、训练、推理 —— 这些零件你现在都认识了。接下来一个礼拜，去把 nanoGPT 跑通。在自己机器上看到模型生成出"今天天气真好，适合"这种它真的从数据里学出来的句子时，所有公式都会变成具体的、可触摸的东西。

祝你享受这个过程。

⑧ 一道小测验收尾

Q1.看完前 9 节后，自己跑通 nanoGPT 训练时最容易踩的坑是？

⑨ 延伸阅读（精选）

karpathy/nanoGPT：本节的主线项目
Karpathy — Zero to Hero (YouTube 系列)：本课内容的视频版，比阅读更直观
Anthropic Research：研究 LLM 内部工作原理（mechanistic interpretability）最深的团队
Chip Huyen — Building LLM applications for production：从研究到落地的工程视角

← 推理与量化