章节
How LLMs Work 全部 16 个章节——从分词、嵌入到注意力、训练,再到完整的模型架构,每一章都配有一个在你浏览器里实时运行的真实大语言模型。
1. 什么是大语言模型?
— 全局视角:LLM 就是一个函数——输入 token,为每个候选的下一个 token 打分——循环运行。
2. 分词(Tokenization)
— 什么是 token?看 Qwen 的 BPE 分词器把字符串切成子词。
3. 词嵌入(Embeddings)
— token 变成向量。用 PCA 散点图展示模型真实的嵌入矩阵。
4. 自注意力
— softmax(QKᵀ / √d) V——让每个 token 都能看到其他所有 token 的机制。
5. 多头注意力与 GQA
— 为什么需要多个头,以及 Qwen3.5 如何用分组查询注意力(GQA)让多个头共享 KV。
6. 位置编码(RoPE)
— 模型如何知道 token 的顺序——可视化为每对维度上的一次旋转。
7. RMSNorm
— 为什么要归一化?看真实层在归一化前后的激活分布。
8. MLP 模块
— 门控 MLP 与残差连接——模型对每个 token 的前馈计算步骤。
9. 完整的 Transformer 块
— 注意力 + 归一化 + MLP + 残差。可旋转的 3D 层堆叠总览。
10. LM head 与权重共享
— last_hidden 如何变成 logits——一次矩阵乘法,而且用的就是嵌入矩阵本身。
11. 采样
— logits → softmax → token。实时 top-k 柱状图,可调 temperature 和 top-p。
12. KV 缓存与混合注意力
— 推理为什么快,以及 Qwen3.5 如何交错使用线性注意力和全量注意力。
13. 训练与 teacher forcing
— 权重是怎么来的:下一个 token 的交叉熵、并行计算所有位置、用真实答案作输入。
14. 扩展与正则化
— 学习率预热 + 余弦衰减、梯度裁剪、权重衰减——让训练收敛的工程细节。
15. 从基础模型到助手
— 预训练、指令微调与对话模板——自动补全如何变成有用的助手。
16. 整个模型,端到端
— 在一张交互式全景图上看清每个组件——以及成品模型能力的真实边界。