全书导航
大模型之路:从图灵、感知机到 ChatGPT · 卷 3

卷三:Transformer 时代

时间范围:从神经网络基础到 2020s 大模型 核心问题:语言模型如何从"预测下一个词"中涌现出看似复杂的能力?


卷三导读:大模型的发动机

前两卷讲完了 AI 的历史和深度学习的崛起。现在,我们来到了全书最硬核的部分。

这一卷不是 11 个独立的技术主题。它是一条问题驱动的链,每一章都在解决上一章留下的问题:

  1. 全连接网络能算任意函数,但参数全是随机的 → 反向传播用链式法则把误差变成每个参数的学习信号(第 18 章)
  2. 全连接看图像参数爆炸,且完全忽略空间结构 → 卷积用局部连接和权重共享,把"邻近像素有关联"这个先验知识内置进层结构(第 19 章)
  3. CNN 只能处理固定大小的输入,语言是变长序列 → RNN 用隐藏状态在时间步之间传递记忆(第 20 章)
  4. RNN 里的词只是整数编号,没有任何语义信息 → Word2Vec 把离散符号变成稠密语义向量(第 21 章)
  5. RNN 只能做定长映射,翻译是序列到序列 → Seq2Seq 用编码器-解码器架构做变长转换(第 22 章)
  6. Seq2Seq 的上下文向量是固定大小的——长句信息必然丢失 → Attention 让解码器每一步动态选择要看输入的哪些位置(第 23 章)
  7. Attention 这么强,RNN 的串行瓶颈能被彻底替换掉吗 → Transformer 用 Self-Attention 实现完全并行化的序列建模(第 24 章)
  8. Transformer 有了,应该双向理解还是单向生成 → BERT 做填空,GPT 做续写,两条路线分岔(第 25 章)
  9. GPT 凭什么只靠"预测下一个词"就学到语法、常识和世界知识 → 预训练:语言建模是最大的免费午餐(第 26 章)
  10. 模型变大真的会更好吗?有没有规律可循 → Scaling Law:loss 与参数量、数据量、算力之间是光滑的幂律关系(第 27 章)

读完这一卷,你会看到大模型不是一堆技巧的拼凑,而是一条逻辑必然的演进路径。每一步都是被上一步的局限逼出来的。

每一章先讲直觉,再讲技术。有代码,有公式,但更重要的是"为什么"。

理解这一卷,你就理解了大模型的发动机。

SECTION §02 · ENGAGE

Discussion

留言区 · GitHub-powered comments via Giscus