第 26 章：预训练：先读世界，再学任务

本章问题：为什么先做大规模预训练，再做任务适配？

GPT 只是做"预测下一个词"这个简单任务，凭什么学到语法、常识和世界知识？这一章揭示预训练的核心逻辑：语言建模是最大的免费午餐。

26.1 通用知识从哪来

本书从第 1 章讲到现在——图灵、感知机、反向传播、CNN、RNN、Attention、Transformer——贯穿所有技术演进的一条线索是：模型的智能来自它从数据中学习到的表示。

在 2018 年以前，NLP 中虽然已有词向量作为预训练表示（以及更早的 ELMo 等），但距离"用一个预训练阶段学到绝大部分所需语言能力"还差关键一步。大部分 NLP 任务仍然需要为每个具体任务从头训练一个模型——情感分析一套模型，翻译另一套，命名实体识别又一套。

BERT 和 GPT 证明了另一件事：你可以在大规模无标注文本上预训练一个巨大的模型，让它在通用语言任务上学到绝大部分语言能力——然后只需要一点点特定任务的数据去做微调。

整个思路的本质是一句话：

先读几十亿词了解语言和世界知识（大量公开文本中蕴含的地理、历史、常识事实），再花几秒学会具体要做什么。

26.2 语言建模——最大的免费午餐

预训练的最关键技术是一个"免费"的训练目标——语言建模（language modeling）。

语言建模的训练目标简单到离奇：给定一段文本前面的所有词，预测下一个词。

不需要人工标注。不需要专家知识。不需要定义任务。互联网上所有的文本、书籍、维基百科文章、论坛帖子和代码仓库——每一段文本、每一行代码、每一个对话——都天然就是语言建模的"标准答案"——因为下一个词已经在数据中了。

这就是所谓的自监督学习——监督信号不是来自人工标注，而是来自数据本身的结构。"标准答案"是免费的——由文本自己的序列产生。输入是前N个词，标签是第N+1个词。只要有文本，就有无限的训练对。

当你让模型在海量文本上反复做"预测下一个词"这个任务时，它被迫学到的东西远超词汇统计：

句法结构（"的"后面通常是名词或形容词）
常识（"因为外面下大雨，所以我带了___"→伞）
世界知识（"巴黎是___的首都"→法国）
逻辑因果链（"如果他昨晚没睡好，那么今天他可能会___"→困/迟到）
代码语法和语义（for i in range( → 10）

这些不是被显式标注的——它们在训练目标无关的情况下，作为"更好地预测下一个词"的副产物，被模型内部参数化。

26.3 迁移学习的新形态

预训练 + 微调的范式和传统机器学习有一个关键的区别——知识的迁移方向变了。

在传统机器学习中，每做一个新任务，你从零开始训练一个新模型——随机初始化参数，然后在那个特定任务的数据上拟合。模型在训练之前没有任何知识。

在预训练范式下：你在超大语料上预训练一个基础模型——这个模型已经拥有了关于语言和世界的大量隐含知识。然后针对具体任务（如情感分类、问题回答、翻译），你只需要在基础模型上加一个非常轻量的任务头，并且只需要非常少的标注数据去微调——因为模型不需要从零再学语言、语法和常识。它已经知道了——它只需要知道"我在这个特定任务中应该怎么用我已经知道的东西"。

微调的效果有时惊人——BERT 发布时，很多 NLP 任务只需要几百到几千条标注样本就能达到之前需要几万甚至几十万条标注样本才能达到的水准。

26.4 基础模型——一种新的 AI 形态

斯坦福的 Percy Liang 等人在 2021 年提出了一个术语——基础模型（foundation model）——来描述这个新范式。

基础模型不特定于任何具体任务。它被训练在一个非常宽泛的目标上（通常是语言建模），在一个巨大的数据集上（通常是整个互联网的文本）。这个"基础"模型本身可以做很多粗粒度的通用语言任务；而通过微调、提示词、RLHF 或适配器方法——这个基础模型可以被适配到成百上千个不同的具体应用中。

基础模型和传统 ML 模型的根本区别：过去是你为每一个任务分别训练一个模型；现在是你先训练一个巨大的基础模型，然后从这个基础模型出发，为各个任务做轻量适配。

这个范式一旦确立，整个 NLP —— 以及随后的视觉和多模态领域 —— 的研究重心发生迁移：从"如何为特定任务设计架构"转变为"如何在预训练阶段制造最强的通用能力基础，然后高效地分发到下游"。

26.5 预训练的成本

预训练不是免费的。

BERT（3.4 亿参数）在 2018 年的训练成本约几千美元。GPT-3（1750 亿参数）在 2020 年的训练成本估计约数百万美元。GPT-4 的成本在数千万到上亿美元量级。

这个指数增长的训练成本是预训练范式的核心壁垒。只有少数机构能承担得起最前沿的基础模型的预训练。但一旦模型被训好并开源发布（如 Llama、Qwen、DeepSeek），数以千计的开发者和研究机构可以以低得多的成本去微调、部署、研究——这形成了一个"金字塔"结构的经济模型。

这也解释了为什么在 2020 年之后，针对"训练成本"和"模型参数与数据规模的对应关系"的研究变得如此重要——如果要在给定的预算下获得最好的模型，需要多少参数、需要多少数据、需要训多久？

这是下一章也要回答的问题。

26.6 本章小实验：预训练一个人

给你一本你完全不懂的外语小说——比如一本印尼语小说。你看不懂字，但你有一个极其耐心的任务：仔细阅读每一页，被允许做的唯一操作是——猜测下一个字母——基于字母的共现统计数据（不需要任何上下文）。

几万个字母之后，你能逐渐在完全没有理解印尼语语法的情况下预测很多常见的字母组合。你也能感觉到某些字母组合是"单词的开头"或"词根"（因为它们在特定上下文分布中出现频率较高）。

再给你五页英-印尼对照文本（你需要从这五页中学习从英语到印尼语的翻译规则）。但这次，和你第一次接触这门外语时不同了——你已经通过"猜下一个字母"的任务，内化了印尼语的拼写统计、常见词根和词序规律。用这些内化的统计知识，你从五页对照文本中去学翻译规则，比完全没接触过这门外语的人快得多、需要的显式规则也少得多。

这是预训练 + 微调的核心直觉：先通过大量无监督的"体验"来低成本构建通用的底层语言感知基础，再通过少量有监督的示例把领域能力叠加上去。

26.7 本章地图

text

问题：为什么先做大规模预训练，再做任务适配？方法：在大规模无标注文本上用语言建模（预测下一个词）进行自监督预训练，让模型习得通用的语言能力、世界知识和推理模式。然后用少量标注数据微调适配具体任务。关键概念：自监督学习（标签来自数据本身的结构）→ 预训练 + 微调（两阶段范式）→ 基础模型（一个巨型的通用能力基础，适配百种下游应用）。代价：预训练成本按参数数量和数据量指数增长，只有少数机构能承担最前沿的模型训练，但一旦产出并开源，下游生态可以低成本运转。今天：所有大型语言模型都遵循"大规模预训练→后期适配/对齐"的两阶段（或三阶段，加上 RLHF）逻辑。

问题：为什么先做大规模预训练，再做任务适配？方法：在大规模无标注文本上用语言建模（预测下一个词）进行自监督预训练，让模型习得通用的语言能力、世界知识和推理模式。然后用少量标注数据微调适配具体任务。关键概念：自监督学习（标签来自数据本身的结构）→ 预训练 + 微调（两阶段范式）→ 基础模型（一个巨型的通用能力基础，适配百种下游应用）。代价：预训练成本按参数数量和数据量指数增长，只有少数机构能承担最前沿的模型训练，但一旦产出并开源，下游生态可以低成本运转。今天：所有大型语言模型都遵循"大规模预训练→后期适配/对齐"的两阶段（或三阶段，加上 RLHF）逻辑。

26.8 本章结语：先成为最好的续写器，然后才知道怎么回答问题

预训练是 AI 经济学的一场认知革命。它把一个很难的问题——"如何为每个任务教会模型专门的知识"——置换成了："先建一个巨大的、通用的语言能力池，然后用轻量方法把这个能力导向具体的工作。"

这就自然引出了下一个问题。如果预训练质量决定了模型的天花板——那做大预训练的最佳配比是什么？多大的模型、多少数据、多长的训练——能获得最好的能力？

这个问题，由 Scaling Law 来回答。

下一章：Scaling Law——规模为什么改变一切。

SECTION §02 · ENGAGE

Discussion

留言区 · GitHub-powered comments via Giscus