卷三：Transformer 时代

时间范围：从神经网络基础到 2020s 大模型核心问题：语言模型如何从"预测下一个词"中涌现出看似复杂的能力？

卷三导读：大模型的发动机

前两卷讲完了 AI 的历史和深度学习的崛起。现在，我们来到了全书最硬核的部分。

这一卷不是 11 个独立的技术主题。它是一条问题驱动的链，每一章都在解决上一章留下的问题：

全连接网络能算任意函数，但参数全是随机的 → 反向传播用链式法则把误差变成每个参数的学习信号（第 18 章）
全连接看图像参数爆炸，且完全忽略空间结构 → 卷积用局部连接和权重共享，把"邻近像素有关联"这个先验知识内置进层结构（第 19 章）
CNN 只能处理固定大小的输入，语言是变长序列 → RNN 用隐藏状态在时间步之间传递记忆（第 20 章）
RNN 里的词只是整数编号，没有任何语义信息 → Word2Vec 把离散符号变成稠密语义向量（第 21 章）
RNN 只能做定长映射，翻译是序列到序列 → Seq2Seq 用编码器-解码器架构做变长转换（第 22 章）
Seq2Seq 的上下文向量是固定大小的——长句信息必然丢失 → Attention 让解码器每一步动态选择要看输入的哪些位置（第 23 章）
Attention 这么强，RNN 的串行瓶颈能被彻底替换掉吗 → Transformer 用 Self-Attention 实现完全并行化的序列建模（第 24 章）
Transformer 有了，应该双向理解还是单向生成 → BERT 做填空，GPT 做续写，两条路线分岔（第 25 章）
GPT 凭什么只靠"预测下一个词"就学到语法、常识和世界知识 → 预训练：语言建模是最大的免费午餐（第 26 章）
模型变大真的会更好吗？有没有规律可循 → Scaling Law：loss 与参数量、数据量、算力之间是光滑的幂律关系（第 27 章）

读完这一卷，你会看到大模型不是一堆技巧的拼凑，而是一条逻辑必然的演进路径。每一步都是被上一步的局限逼出来的。

每一章先讲直觉，再讲技术。有代码，有公式，但更重要的是"为什么"。

理解这一卷，你就理解了大模型的发动机。

SECTION §02 · ENGAGE

留言区 · GitHub-powered comments via Giscus