第 29 章:指令微调:让模型听懂「人话」
本章问题:为什么裸模型什么都会,但什么都不听你的?
29.1 能续写《哈姆雷特》,但听不懂"给我写一段摘要"
2019-2020 年,GPT-2 和 GPT-3 的研究者不断发现令人惊讶的事情:这些纯粹为了"猜下一个词"而训练的模型,客观上拥有了大量的知识和能力。它们能写出结构优雅的代码,解释复杂的科学概念,从英文翻译到斯瓦希里语——而且这些能力可以在不给任何专门标注训练数据的情况下(zero-shot)显现。
但这里有一个奇怪的断层。
GPT-3 作为一个裸的续写模型,可以在零样本下完成很多任务——但它也经常在简单的指令面前输出莫名其妙的内容。你问"总结一下这段话",它可能给你的输出是"下一段话的内容……"而不是总结。你问"这个产品的优点和缺点各列出三点",它可能输出半篇维基百科。
问题不是它不能总结或分析——它的参数里确实存储了这些能力。问题是它不知道你想让它做什么。它学会的唯一目标是"续写"——如果你给它一段文本,它从概率上最可能续写出的内容取决于训练数据中类似模式的统计分布,而不是你的意图。
训练数据中,一段文本后面跟着"总结"的场景远比跟着"下一段"的场景少。裸模型会自然地倾向最常见的续写模式——而不是你心里想要的那一种。
这个时候,一个朴素的想法出现了:
既然模型学会了续写——那能不能教它一件事:看到指令格式的文本时,应该生成符合指令的答案?
这就是指令微调(Instruction Tuning)的起点。
29.2 教模型"理解任务描述"
指令微调的核心思想极其直接:
- 收集大量 NLP 任务(翻译、摘要、分类、问答、推理……)。
- 把每个任务重新格式化成一个统一的自然语言模板——"指令 + 输入 → 输出"。
- 用这些格式化的数据去微调(fine-tune)一个预训练好的语言模型。
训练完成后,模型不再是"看到一段文本续写下去"——而是"看到一段指令,生成符合指令的回答"。
公式化来看,指令微调把训练从:
变成了:
在预训练阶段,模型从"Ingredients: eggs, flour, sugar. Steps:"中学到要续写烘焙步骤。在指令微调阶段,模型学会了区分两种完全不同的场景:当它看到"续写以下食谱:"时→输出步骤;当它看到"总结以下段落的要点:"时→输出要点。同一个模型权重被调整到:不根据固定模式做最常见的续写,而是根据指令的类型选择正确的行为。
2021 年底到 2022 年,两个关键研究成果相继问世:
- Google 的 FLAN(Finetuned Language Net)——把 62 个 NLP 任务集全部格式化为指令模板,然后在上面微调 1370 亿参数的 LaMDA 模型。结果:FLAN 在多个未见过的新任务上的 zero-shot 表现大幅超越裸模型——换句话说,模型学会了泛化到没见过的指令类型上。
- BigScience 的 T0——用类似思路在多任务指令数据集上训练 T5 变体,也展示了指令微调显著提升 zero-shot 任务泛化能力。
这两个工作的共同结论比人们预期的更加深刻:"遵循指令"这种能力本身可以被当作一个元技能来训练——在足够多样化的任务指令上微调后,模型面对全新类型的指令时也能做出合理回应。 指令微调不是在教模型某一个具体技能——是在教模型"当别人告诉你做什么时,怎么理解并执行"。
29.3 指令数据的格式:三部分就够了
指令微调的训练数据只有三种字段:
在训练时,instruction 和 input 被拼接成模型的输入——通常用一段固定的模板(prompt template)。output 作为标签进行有监督的交叉熵训练——和第二章的损失函数同款,不过这时的标签是"回答的真正 tokens"。
指令多样性是指令微调成功的关键。如果你的训练集里只有"翻译"和"摘要"两种指令类型,模型不会理解"解释"、"对比"、"列表"、"判断"、"归纳"——因为它的权重调整没有被暴露给足够丰富的指令→回答映射模式。Google 的 FLAN 用了 62 个不同任务的集合——翻译、自然语言推理、常识推理、情感分析、句子关系、结构→文本等——关键在于指令的类型丰富度,而非每个任务的数据量。
后续的研究进一步证明:指令微调的数据质量比数据量重要得多。 少量高质量、多样化的指令示例带来的能力提升,往往超过大量嘈杂、重复的低质量指令数据。这推动了后来整个"高质量指令数据构建"方向的发展——包括 LLaMA、Alpaca、Vicuna 等开源模型的指令数据集建设。
29.4 指令微调 vs 预训练:两个阶段的根本区别
如果你把预训练比喻成"读了几十亿页书,了解了世界"——那指令微调就是"读了几万条'别人问+理想答'的对话范例,学会了怎么和别人交流"。
这两者的规模差异是巨大的。预训练可能需要读取数万亿 token、花费数千万美元的计算量。指令微调可能只需要几万条高质量指令数据,在一个预训练好的基础模型上跑几十分钟到几小时。
这也是为什么基础模型可以被无限次地复用来做各种微调——昂贵的预训练只做一次;轻量的指令微调每次只需要很少的计算量。
29.5 最小代码:从裸模型到指令模型的行为差异
以下代码在同一台机器上加载一个裸的 GPT-2 和一个指令微调过的 FLAN-T5,输入同样的指令,观察输出的巨大差异:
同样的输入,不同的输出模式。裸模型在"续写"——因为这是它在预训练中唯一学过的事。指令微调模型在"执行指令"——因为它被训练过"看到指令格式时要回答,不要续写"。
29.6 本章小实验:构造你自己的指令数据集
用 JSON 格式手工构造 5 条指令数据,感受其结构:
注意这五条数据的多样性——问答、翻译、情感分析、内容生成、语气改写。五条很少,但如果你用一千条这样不同类型的高质量指令对去微调一个裸模型,它就会开始"理解指令"——这不是因为模型变聪明了,而是因为它在权重中编码了一个通用模式:"当输入以指令开头时,输出应该匹配指令的类型。指令要求X,那我就输出X。指令要求Y,那我就输出Y。" 指令类型越多,这个模式越泛化。
29.7 本章地图
29.8 本章结语:会听话,比会说话重要得多
全卷三你看到的是语言模型如何被建造成越来越强大的"续写器"。但续写不是帮助。续写只是生成——而生成的内容可能是回答,也可能是胡话,也可能是危险内容。
指令微调是修正这个问题的第一步。它是教会模型"对话的基本礼仪"——理解别人想让你做什么,然后按着做,而不是自顾自地继续打字。
但指令微调有自身的天花板。它依靠的是训练集中标注员写的"理想回答"——标注员是人,人会有偏见,会不一致,会对一些复杂问题产生"什么才是好回答"的根本分歧。同时,当你用指令微调教模型做 N 件事时,它在这 N 件事上的个体表现可能比你只教它一件事专门用普通微调弱——这叫多任务干扰——模型会牺牲某些任务上的最优表现来获取平均改善。
这些问题引出了下一步——如何让模型区分"有帮助的回答"和"有害的回答"?如何让模型理解不是所有问题都应该被回答?如何让回答不只是正确——还安全、有边界、有判断力?
这需要比指令微调更强的方法——不仅要告诉模型"怎么做",还要告诉模型"什么是好"。
下一章:RLHF——当人类开始给语言模型的回答打分。
Discussion
留言区 · GitHub-powered comments via Giscus