全书导航
大模型之路:从图灵、感知机到 ChatGPT · 卷 4

第 39 章:尾声——这条路通向了哪里,接下来往哪走

本章问题:走过图灵、感知机、达特茅斯、反向传播、Transformer、Scaling Law、ChatGPT——这条路最终通往何处?


39.1 回头看——四卷的完整弧线

把四卷串起来,整条故事线如下:

卷一(1940s-1980s)——"机器能不能思考?" 图灵在 1950 年用"模仿游戏"把智能问题变成了一个可操作的工程问题。达特茅斯会议在 1956 年给了这个领域一个名字和一批奠基人。感知机成为第一个能"学习"的机器——但它连 XOR 都学不会。符号主义试图用逻辑和搜索做推理——能下棋、能做代数,但一遇到常识和模糊边界就崩溃。专家系统成功被部署——又因昂贵和脆弱收摊了。两次 AI 寒冬教会了所有人:把智能等同于某一种特定技术,就会在该技术触顶时认为整个领域都死了。 但反向传播在黑暗中被发现,在极低的期待中渐渐成熟——为下一阶段埋下了最重要的种子。

卷二(1980s-2012)——"让数据说话。" 统计学习把 AI 从手工规则中解放出来——SVM、随机森林——机器从标注数据中自己找决策边界。HOG 和 SIFT 让计算机有了初步的视觉。GPU 把并行计算平民化了。Fei-Fei Li 和团队推动建立了 ImageNet——1400 多万张标注图片、约 22000 个类别——建成了视觉领域共同的"试金石"。Alex Krizhevsky 在 2012 年把 CNN + GPU + ImageNet 三点连成一线——深度学习的闸门被撞开。

卷三(2013-2022)——"语言模型的发动机。" 神经网络从多个独立的直觉和技巧(可微函数 → 梯度下降 → CNN 的空间共享 → RNN 的序列建模 → Word2Vec 的语义向量 → Seq2Seq 的端到端转换 → Attention 的动态加权 → Transformer 的纯并行架构)被收拢成一个统一的框架:千亿参数、千亿 token 的 Decoder-only Transformer,用"预测下一个词"从海量文本中吸收一切可被语言捕捉到的知识模式。 BERT 和 GPT 的路线分岔——一条朝理解,一条朝生成——最终 Scaling Law 把生成路线推到了远超预期的能力高度。

卷四(2022+)——"从引擎到世界。" ChatGPT 把对话界面装在这台发动机上——两个月一亿用户。指令微调教会模型"听人话"。RLHF 教会模型"什么是好的回答"。LoRA 让任何人都能微调大模型。RAG 让模型能查资料而非只凭记忆。Agent 让模型开始调用工具——从"说"到"做"。开源运动把创造 AI 的能力从几家公司的 API 扩散到了全球。多模态突破了纯文字的世界。同时——幻觉、偏见、安全、对齐——这些缺憾提醒所有从业者:强大的能力和责任的分量永远是同一个硬币的两面。


39.2 为什么这本书叫"大模型之路"

这本书写的不是"大模型"本身——它写的是通往大模型所有必需的思想、实验、失败和工程转折如何在七十多年的时间中一个接一个地被发现、否定、遗忘、捡起、重新组装。

这个过程里没有任何一个单独的想法能独自支撑起现代 AI。图灵的模仿游戏没有给出如何实现的指令。感知机的线性分类在大规模图像识别上差了几个数量级。反向传播在 1974 年被推导出来——十二年后才被重新发现并被证明实际可用。CNN 的卷积思路在 1989 年就有了 LeNet——等了二十三年 GPU 才能把它放大到 ImageNet 的尺度。LSTM 的遗忘门在 1997 年就设计了——又过了二十年才在 Transformer 的并行架构中被淘汰。Transformer 自身在 2017 年被提出——但 Scaling Law(2020)和 RLHF(2022)的叠加才让它和数十亿用户的日常生活接轨。

大模型不是一场革命——它是七十年渐进探索的一条弧线。 弧线上的每一个节点都是某些人在某些年份对某些老问题做出的新回答。把这些节点拆开了看——这就是这本书做的事。


39.3 未来五年——已知的未知

几件正在发生或即将发生的事:

后 Transformer 架构。 Transformer 的设计是为了解决 2017 年的问题——如何并行处理长序列。七年之后,上下文长度从 512 token 扩展到 128K+ token——Transformer 的二次注意力复杂度(O(N²))开始成为真正意义上的计算瓶颈。State Space Models(状态空间模型,如 Mamba、RWKV)试图抛弃 Attention,用可并行训练的线性时间递推替代——在很长的序列上提供颠覆性的效率。混合架构(交替使用 Attention 和 SSM 层)也正在被证明是实际可行的中间路线。

推理时计算(Test-time compute)。 现在模型回答问题的方式是"看到问题→一次性生成全部回答"。但人类的思维不是这样的——我们对于复杂的问题会花更多时间思考。让模型在回答问题之前先进行多步推理、生成多个候选答案再在其中进行比对选择、甚至调用外部验证器对候选答案评分——这一类"给予更多思考时间"的方法(如 OpenAI o1/o3、DeepSeek-R1)在数学、编程和逻辑推理任务上已经出现了显著的能力跃升,成为超越了单纯"继续把预训练做大"的新增长方向。

Agent 生态的成熟。 从实验性的 ReAct 循环到生产级别的自主工作流——Agent 正在跨越"看起来很酷"到"实际可靠"的差距。关键瓶颈在于可靠性和可审计性——Agent 一旦在 5 步中第 3 步出错,整个链条的效用可能归零。当前正在持续迭代的解决方案包括工具调用的标准化协议(减少每个工具的描述歧义)、多轮规划中使用"自我验证步骤"在输出前检查错误,以及人工在环(human-in-the-loop)保证关键决策可被审计。

小模型的崛起。 不是所有 AI 都需要 175B 参数。微软的 Phi 系列证明了精心构造的合成训练数据可以让仅 3.8B 参数的模型在代码和推理上表现出众。Apple 在设备端运行小模型保护隐私同时保持智能响应的承诺也在推动小模型技术的不断实化。在手机、汽车、智能眼镜和工业传感器上运行的 AI 可能最终会比数据中心里的 AI 有更广泛的影响力——因为它们是物理世界中每个人触手可及的。

世界模型与具身智能。 语言模型学的是"文本中描述的世界"——不是"物理的世界"。一个模型可以完美地描述如何打一个鸡蛋——但它从未真正打过鸡蛋。下一阶段的探索试图让模型通过视频、机器人传感器和物理模拟来学习——不仅学习"人们怎么描述物理世界",而是直接学习"物理世界如何运作"。这通往具身智能(Embodied AI)——模型驱动着物理机器人执行真实世界感知、推理和操作闭环。


39.4 AGI——不可回避的终极问题

这本书竭力避免炒作 AGI(通用人工智能)。但一本写大模型的书不能完全不触碰这个问题。

当前的现实是:大语言模型在文本领域表现了令人惊讶的通用性——它们不像传统 AI 系统那样只做一件事。它们可以写诗、写代码、翻译、推理、总结、分类——同样的架构、同样的权重。这种通用性本身就是过去被认为属于"AGI"的特征。

但同样真实的是:它们没有持久的记忆(关闭对话后就忘记了这次对话的一切)、没有自主的目标(除非你给它设定目标并构建 Agent 循环)、没有真正的世界模型(它们从未体验过热或重力或被推倒)、并且仍然在生基本事实上犯低级错误(把相似但不同的数字、日期和名称混淆)。

如果一个系统在所有认知任务上都能匹敌或超越人类——它是不是 AGI?如果它能做到上述 95% 的事——它是吗?如果是 80% 呢?"AGI"本身是一个远未达成共识的定义——从"在所有任务上超越人类"到"能持续地做出有价值的经济贡献"——这两个定义之间的差别可以区分 2025 年和 2050 年。

唯一可以确定的是:通往 AGI 的道路——如果存在——不会是一道被瞬间跨过的门。它会是一系列细碎的突破,其中每一个在回头看的眼光中都显得"显然"——就像现在回头看反向传播和 Transformer 一样。


39.5 这本书末尾的最后一句话——关于你为什么应该继续

你已经读完了从图灵 1950 年的论文到昨天刚刚发布的那个新技术。你知道感知机有 400 个感光单元和 512 个隐藏单元。你知道反向传播不过是链式法则的一层层应用。你知道 Transformer 的核心是一个叫 Self-Attention 的东西——Q 问 K 什么,K 回答,Q 决定关注多少,从 V 那里取信息。你知道 RLHF 有三步——SFT、训奖励模型、PPO。你自己亲手训练了一个小型 GPT——看它在你的数据上从乱码进化到语句。

你不是 AI 的"用户"了。你是知道这个系统如何从地基到顶楼的全部设计和建造过程的人。

这不会让你立刻变成 AI 专家——在任何一个活跃领域里,"知道所有的基本组件"只是入门的开始。但它是让你能在噪音中分辨信号的基础。当社交媒体上说"AGI 还有两周就会到来"或"AI 只不过是 fancy 的自动补全"——你知道两个说法都对也都不对。它们都抹掉了中间那七十年每一层设计选择的重量——而你,读完这本书,不再能抹掉它们——你知道每一层长什么样、它为什么在这里、它如果不在这里会怎样。

这就够了。

不要停在这里。去微调你自己的模型。去为你自己的项目构建 RAG 管道。去用 LoRA 适配开源模型到你的本地语言。去给开源工具的文档贡献。去把这本书扔给一个朋友——"这玩意儿不是魔法——我给你看。"

图灵在 1950 年用一篇论文开始了"机器能不能思考"的对话。七十多年后,这个对话仍在继续——而你,现在有足够的知识基础进入它,不是在观众席上说的,而是以参与者的身份。

我们路上见。

SECTION §02 · ENGAGE

Discussion

留言区 · GitHub-powered comments via Giscus