模块 10 · 最后一节 · 课程收尾 + 实战路线

实战项目:自己跑通 nanoGPT

课程到这里就结束了。你已经看完了从 token 到 RLHF、从 attention 到 INT4 量化的全套基础。 但看懂能写之间还有一道坎 —— 这一节是你过坎的"路标":把所有零件串起来跑通一个真正的迷你 GPT。

① 回顾:这门课讲了什么

9 节课你已经掌握的概念地图(点链接可以回去复习):

模块关键概念
01 什么是语言模型概率分布、采样、温度
02 TokenizationBPE 切词,连接文本与数字
03 Embeddings把 token 变成稠密向量,建立语义距离
04 Bigram → MLP从查表到神经网络的进化
05 AttentionQ/K/V,让 token 互相"看"
06 Transformerattention + FFN + 残差 + LN 拼成 Block,堆 N 层
07 训练交叉熵 + 反向传播 + AdamW + lr schedule
08 SFT + RLHF从基座到助手的三阶段
09 推理 + 量化KV cache + INT4,让模型跑得起来

把这张表打印出来挂墙上 —— 它就是「大模型基础」的全套地图。看 paper、读源码、和人讨论时,能随时回这上面定位概念。

② 推荐路径:跑通 nanoGPT

强烈推荐Karpathy 的 nanoGPT 作为你的第一个实操项目。原因:

  • 足够简单 —— 整个项目不到 500 行 PyTorch,比看任何论文都直观
  • 足够完整 —— 涵盖了 model + train + sample,能从零训出一个真的能"说话"的模型
  • 能小能大 —— 字符级小模型笔记本就能训;config 改大点直接复现 GPT-2

③ nanoGPT 的代码全貌 ↔ 你学的每一节

下面这段是 nanoGPT 模型部分的"骨架"。每一段对应本课的哪一节都标出来了:

python
直接编辑这段代码即可。输入 np. 看自动提示,⌘/Ctrl + Enter运行。

④ 实战 checklist

建议你这周内做完这 5 步:

python
直接编辑这段代码即可。输入 np. 看自动提示,⌘/Ctrl + Enter运行。

⑤ 配置建议:在你自己机器上能跑的版本

硬件推荐 config参数量语料训练时间
仅 CPUn_layer=4, n_head=4, n_embd=128~0.5MShakespeare-char~30 分钟
MacBook M1/M2n_layer=6, n_head=6, n_embd=384~10M中文小说 100MB~2 小时
RTX 3090 / 4090n_layer=12, n_head=12, n_embd=768~124M (GPT-2 small)OpenWebText~4 天

⑥ 学完之后去哪

课程是基础,但 LLM 这个领域每周都有新东西。下面是几条"接下来去哪"的方向:

实现方向(写代码)

  • Karpathy/llm.c —— 纯 C 实现 GPT-2 训练,让你看清 PyTorch 在底下到底做了什么
  • Karpathy/makemore —— 从 Bigram → MLP → WaveNet → Transformer 一步步演化,4 期 YouTube 视频每期都值得看
  • HuggingFace Transformers —— 工业级实现,看 modeling_llama.py 等会让 nanoGPT 的"简化版"在你脑里变成"完整版"

研究方向(读论文)

  • Mixture of Experts(Mixtral、DeepSeek-MoE)—— 万亿模型怎么稀疏化
  • Long Context(RoPE 外推、StreamingLLM、Mamba)—— 让上下文从 4k 拉到 100k+
  • Mechanistic Interpretability(Anthropic 的 Circuits 系列)—— 看模型内部到底发生了什么
  • RLHF/DPO 之后(RLAIF、Constitutional AI、SPIN)—— 对齐研究的最新进展

应用方向(建产品)

  • 本地推理:llama.cpp + Ollama,让自己用得起 LLM
  • RAG(检索增强生成):vector DB + embedding,让 LLM 知道你的私有数据
  • Agent:让 LLM 调用工具、写代码、上网 —— Claude Code、cursor 等都是这条路上的成果

⑦ 最后的话

看完这门课,你已经具备"看懂大模型源码"的基础。 但真正"学会"一件事,必须自己动手。理论看得再清楚,比不上跑通一遍 train.py、看 loss 从 10 降到 2、采样出第一句通顺的话。

从 token、embedding、attention、Transformer、训练、推理 —— 这些零件你现在都认识了。 接下来一个礼拜,去把 nanoGPT 跑通。 在自己机器上看到模型生成出"今天天气真好,适合"这种它真的从数据里学出来的句子时, 所有公式都会变成具体的、可触摸的东西。

祝你享受这个过程。

⑧ 一道小测验 收尾

Q1.看完前 9 节后,自己跑通 nanoGPT 训练时最容易踩的坑是?

⑨ 延伸阅读(精选)

推理与量化