章节

How LLMs Work 全部 16 个章节——从分词、嵌入到注意力、训练,再到完整的模型架构,每一章都配有一个在你浏览器里实时运行的真实大语言模型。

1. 什么是大语言模型？ — 全局视角：LLM 就是一个函数——输入 token，为每个候选的下一个 token 打分——循环运行。
2. 分词（Tokenization） — 什么是 token？看 Qwen 的 BPE 分词器把字符串切成子词。
3. 词嵌入（Embeddings） — token 变成向量。用 PCA 散点图展示模型真实的嵌入矩阵。
4. 自注意力 — softmax(QKᵀ / √d) V——让每个 token 都能看到其他所有 token 的机制。
5. 多头注意力与 GQA — 为什么需要多个头，以及 Qwen3.5 如何用分组查询注意力（GQA）让多个头共享 KV。
6. 位置编码（RoPE） — 模型如何知道 token 的顺序——可视化为每对维度上的一次旋转。
7. RMSNorm — 为什么要归一化？看真实层在归一化前后的激活分布。
8. MLP 模块 — 门控 MLP 与残差连接——模型对每个 token 的前馈计算步骤。
9. 完整的 Transformer 块 — 注意力 + 归一化 + MLP + 残差。可旋转的 3D 层堆叠总览。
10. LM head 与权重共享 — last_hidden 如何变成 logits——一次矩阵乘法，而且用的就是嵌入矩阵本身。
11. 采样 — logits → softmax → token。实时 top-k 柱状图，可调 temperature 和 top-p。
12. KV 缓存与混合注意力 — 推理为什么快，以及 Qwen3.5 如何交错使用线性注意力和全量注意力。
13. 训练与 teacher forcing — 权重是怎么来的：下一个 token 的交叉熵、并行计算所有位置、用真实答案作输入。
14. 扩展与正则化 — 学习率预热 + 余弦衰减、梯度裁剪、权重衰减——让训练收敛的工程细节。
15. 从基础模型到助手 — 预训练、指令微调与对话模板——自动补全如何变成有用的助手。
16. 整个模型，端到端 — 在一张交互式全景图上看清每个组件——以及成品模型能力的真实边界。