全书导航

大模型之路：从图灵、感知机到 ChatGPT · 卷 1

第 7 章：寒冬降临：为什么聪明的机器没有到来

本章问题：为什么 AI 的早期承诺没有兑现？

7.1 当钱停下来的时候

1973 年，英国政府做了一件在人工智能史上影响深远的事。它委托数学家詹姆斯·莱特希尔爵士对英国的人工智能研究进行一次全面的评估。莱特希尔是一位非常严谨的流体力学数学家，不是 AI 领域的内部人士。他用一个局外人的冷静目光审视了这个领域，然后写出了一份改变英国 AI 命运的评估报告。

报告的核心结论很直接：

迄今为止，人工智能领域的任何发现，都没有产生当初承诺的那种重大影响。

莱特希尔指出，AI 的许多技术在小规模、简化的场景中表现不错——但在面对真实世界的复杂性时，它们会撞上一堵不可逾越的墙：组合爆炸。当问题的规模变大，可能的解会以指数级增长，搜索和推理立刻崩溃。

英国政府对这份报告的反应是：几乎砍掉了所有大学里的人工智能研究经费。一个领域在一份报告之后被系统性地拆除。这被后来的人称为"人工智能的第一次寒冬"。

但莱特希尔的报告只是众多压力中的一根。在美国，DARPA 也在重新审视它对 AI 的投资——而结果同样不乐观。

7.2 美国的紧缩：承诺与失望的算术

1969 年，美国国会通过了曼斯菲尔德修正案，要求 DARPA 的经费必须用于"以任务为导向的直接研究"，而不是"无方向的、基础性的研究"。这意味着：AI 研究者不能再靠"这可能很重要"来要钱了。他们必须说清楚——这个研究，具体能用来做什么？什么时候能用上？

这个要求在 AI 领域尤其要命。因为 AI 研究者以说话大胆著称。赫伯特·西蒙在 1957 年公开预测：十年之内，计算机会成为国际象棋冠军。纽厄尔和西蒙在 1958 年说：十年之内，计算机会发现并证明一个重要的数学定理。人们真正相信这些预测。

但十年过去了。又一个十年。计算机没有成为象棋冠军（直到 1997 年深蓝击败卡斯帕罗夫）。定理证明卡在了组合爆炸上。机器翻译在 1966 年就被一份政府报告宣判为"看不到近期突破的迹象"。语音识别只对固定词汇、固定语序管用——DARPA 在 CMU 投了三年每年 300 万美元的项目，最后发现系统只有在单词按特定顺序排列时才能理解。1974 年，这个项目被取消了。

DARPA 对 AI 的拨款在 1970 年代被大幅削减。一些实验室的年预算从几百万美元暴跌到几乎为零。

一个循环正在显现出来：研究者发出乐观预测→资助机构投入资金→现实的复杂性远超预期→成果迟迟不出现→资助撤离→方向被放弃。这个循环不是某人恶意的结果，但它像一台机器一样自动运转。

7.3 莱特希尔的分析：为什么玩具问题不等于真实问题

莱特希尔报告的价值不只是"砍掉了经费"。它的分析本身值得认真读一读，因为它点出了早期 AI 的一个核心弱点。

莱特希尔把 AI 研究分成了三类：

A 类：高级自动化。这是 AI 在窄领域取得温和成功的一类——比如棋类程序的搜索技术、简单的定理证明。莱特希尔对这一类的评价相对正面，认为它有价值，但规模效应有限。

B 类：计算机模拟中枢神经系统。这是神经网络和感知机路线。莱特希尔认为这一类有些有趣的成果，但离产生实际系统还很远。他预测这类研究会在 25 年内被遗弃——他猜错了。但他反映了当时的主流看法。

C 类：桥梁类别——机器人学和通用问题求解。这是莱特希尔批评最猛烈的部分。他说"这一类试图把 A 和 B 结合起来，但在很大程度上是失败的"。通用机器人、通用问题求解器——这些目标的规模太大，而 AI 的算法一旦面对真实世界中的感官输入、物理交互和常识推理，就立刻暴露了脆弱性。

他的核心论点是一个简单的数学观察：搜索空间会指数级爆炸。如果你在一张20×20的棋盘上做规划——可能的局面多到全宇宙的原子数都远远不够代表。在抽象的小世界里，你可以用巧妙的启发式方法来剪枝。但在真实世界的问题里，"剪枝"本身就需要知道什么信息重要、什么信息不重要——而这恰恰是"智能"在做的事情。

换句话说：你需要先有智能，才能有效搜索；但你想用搜索来制造智能。这是一个循环。

7.4 过度承诺：一个自我馈送的陷阱

在这里必须停下来问一个问题：为什么 AI 研究者会反复做出后来被证明太乐观的预测？

一个常见回答是：他们自大、不诚实、为了抢经费而吹牛。这个答案太简单了。

更接近事实的答案是：在小世界里的初步成功，很容易让人低估推广大世界的难度。

当"逻辑理论家"证明了《数学原理》中的 38 个定理时，研究者自然觉得：这只是开始，把系统扩大，就能证明更多。当积木世界里的机器人可以"把红色方块放到蓝色方块上面"时，研究者自然觉得：这只是精简版，把感官信息加进来，就是真的机器人了。

他们没有欺骗任何人。他们自己首先相信了。

而且这个信念不是非理性的。科学和技术史上的许多突破，确实是先在小尺度上证明可行，然后通过工程手段扩大。莱特兄弟的第一次飞行只持续了 12 秒，但有人说"这证明重于空气的机械飞不起来"吗？没有——因为他们看到了原理，相信规模可以扩大。

AI 的问题在于：智能不是一架等比缩小的飞机。在小世界里好用的方法，并不必然通过"加法"扩展到大世界。很多时候，它需要完全不同的方法。

这个教训到今天也还是新的。我们看到一个语言模型在小学数学题上表现不错，就很容易觉得"再加点数据和算力，它就能做大学数学"。也许是。也许不是。从"在小世界可用"到"在大世界可靠"，中间没有自动扶梯。

7.5 第二次寒冬：当专家系统的泡沫破裂

如果说第一次寒冬（1970 年代中期到 1980 年代初）是政府资助撤离和学术批评的后果，那么第二次寒冬（1980 年代末到 1990 年代）则更多是商业逻辑的审判。

1980 年代初专家系统的商业成功带来的不全是好事。它吸引了一波狂热的投资——很多公司相信自己需要一个专家系统，却没有充分理解维护规则库在长期会变得多么昂贵和脆弱。

然后几件事几乎同时发生：

1987 年，专为 AI 设计的 LISP 机器市场崩溃了。新一代通用工作站——Sun、Apple、IBM——性能越来越强，价格越来越低，把那些昂贵的 LISP 专用硬件挤出了市场。一个价值 5 亿美元的产业在一年内几乎消失。

专家系统也开始暴露它们的经济问题。XCON 看起来省了钱，但维护它的规则库需要一支不断增长的工程师团队。每一条新规则可能和旧规则冲突，每次冲突都需要人类调试。这种成本并不是一次性的——它在系统整个生命周期内持续存在，而且随着规则数量增长，它可能变得比"雇人来做"还贵。

日本的第五代计算机计划在 1992 年悄然收尾——耗资约 8.5 亿美元，没有留下可商业化的重要成果。

美国国防部的战略计算计划（Strategic Computing Initiative）也在 1987 年后被新的项目主管大幅裁减。这位新主管对专家系统的评价是："聪明的编程，但这不是 AI。"

资金再次离开。公司裁员、实验室关闭、博士生改了方向。

7.6 两次冬天，一个周期

两次寒冬过后，回头看，可以总结出一个似乎放之四海而皆准的 AI 投资周期：

演示成功→媒体放大→承诺膨胀→资本涌入→现实的墙→成果滞后→失望→寒冬。

这个周期的每一步都不是某个人的"过错"。演示成功是真实的——MYCIN 确实在细菌感染诊断上表现出色。媒体放大大致是不可避免的——"机器媲美医生"比"计算机辅助决策系统在一项研究中达到了 65% 的可接受率"好写标题。资本涌入有它自己的理性——如果专家系统真的能把知识变成可复制的软件产品，那它是一个巨大的商业机会。

问题是：从"演示成功"到"可靠产品"的这一步，在 AI 中比在大多数其他领域中要长、要贵、要难。

为什么？因为真实世界不是演示世界。

在演示世界里，输入被精心选择，边界被提前关闭，意外的干扰被排除在外。在真实世界里，意外就是日常。XCON 在演示中可以完美配置几十种 VAX 组件；部署后，它不断地遇到新组件、新约束、新例外——而这些"新"是无法被提前写进规则的。

同样的情况在今天的大模型身上也能看到。ChatGPT 在演示中可以通过律师资格考试、写出优雅代码、回答复杂问题。但在真实的工作场景中，它会幻觉、会被误导、会在关键时刻给出看似合理但完全错误的回答。第一个吃到螃蟹的人以为这就是螃蟹的全部味道。但当更多人来吃的时候，发现这只螃蟹的壳比预想的厚得多。

7.7 生存下来的事物

不过，AI 寒冬并没有杀死一切。有两件事在一次又一次的寒冬中活了下来——甚至变强了。

第一件活下来的事是核心算法的研究。当经费撤离、媒体转向、公司倒闭时，少数研究者仍然在推进基本的问题——如何处理不确定性、如何进行有效搜索、如何从数据中学习模式。这些人做的工作在当时不热门，但在下一次春天的到来中会成为地基。反向传播算法的成形和传播，就是一个在冬天里默默发育的故事——我们在下一章会详细讲。

第二件活下来的事更有讽刺意味：人们收敛了承诺，但扩大了知识的积累。寒冬期间，研究者不再说"五年内实现通用智能"，而是专注于在特定领域做出可靠的结果。统计方法、概率推理、贝叶斯网络——许多今天在 AI 中仍被广泛应用的技术框架，是在寒冬期间安静地建立起来的。

"冬天"并没有让 AI 研究的总人数下降。一个经常被忽略的数据是：SIGART（美国计算机学会人工智能特别兴趣组）的成员数在 1973 年到 1978 年间几乎翻了三倍。大实验室的经费被砍了，但更多的小团队和大学研究者进入了这个领域。寒冬这个词容易让人想到"一切停摆"——但真实的画面更像是：一场暴风雪让大路上的车停了下来，但小路仍然有人走，有些还走得比之前更远。

7.8 本章小实验：做一次"承诺审计"

翻开今天任何一款大模型的发布页，或者任何一篇 AI 相关的热门文章。找三到五个关于"AI 将能做到什么"的预测——可以是官方的，也可以是媒体说的，也可以是评论里经常出现的。

然后对每个预测问三个问题：

它说的是"现在能做到"还是"很快能做到"？如果是后者，多快？有具体的路线图吗？
如果它说的这个能力，在接下来的三年里没有出现，是因为什么原因？是技术障碍、成本问题、数据问题还是根本不可行？
有没有类似的、在过去被热烈预测过的 AI 能力，后来没有实现？如果有，当年的乐观期待和今天对这项新能力的期待，有什么结构上的相似之处？

你不需要给出"正确答案"。这个实验的目的是帮你建立一种习惯：在听到乐观预测时，把它和历史上被同类的乐观预测对比一下。

如果你发现今天的乐观，和以前落空了的乐观，在措辞、时机、论据结构上很像——那很可能不是巧合。那可能就是技术乐观主义的固定语法。

7.9 本章地图

text

问题：为什么 AI 的早期承诺没有兑现？现象：1970 年代和 1980 年代末，人工智能经历了两轮资金撤离——被称为"AI 寒冬"。原因：莱特希尔报告（1973）、DARPA 拨款紧缩、专家系统维护成本过高、LISP 机器市场崩溃（1987）、日本第五代计算机计划未能实现目标（1992）。根源：从"演示成功"到"可靠产品"的这步跨越，在 AI 领域比在大多数其他领域更远、更贵、更长——因为真实世界不像小世界一样可以被封闭式地规则化。今天：大模型正处于新一轮"演示成功→资本涌入→预期膨胀"的周期中。历史上的寒冬提醒我们：不是所有看起来触手可及的突破都真的触手可及——区分"这次真的不一样"和"这次只是看起来不一样"仍然是最重要的问题。

问题：为什么 AI 的早期承诺没有兑现？现象：1970 年代和 1980 年代末，人工智能经历了两轮资金撤离——被称为"AI 寒冬"。原因：莱特希尔报告（1973）、DARPA 拨款紧缩、专家系统维护成本过高、LISP 机器市场崩溃（1987）、日本第五代计算机计划未能实现目标（1992）。根源：从"演示成功"到"可靠产品"的这步跨越，在 AI 领域比在大多数其他领域更远、更贵、更长——因为真实世界不像小世界一样可以被封闭式地规则化。今天：大模型正处于新一轮"演示成功→资本涌入→预期膨胀"的周期中。历史上的寒冬提醒我们：不是所有看起来触手可及的突破都真的触手可及——区分"这次真的不一样"和"这次只是看起来不一样"仍然是最重要的问题。

7.10 本章结语：冬天的意义

AI 寒冬通常被当作一段"黑暗时期"来讲。

这不太公平。

寒冬不是一群坏人蓄意扼杀好想法的结果。它是过度乐观的自然代价。没有研究者能预见到他们在 1950—1960 年代做的小规模成功，放大到真实世界需要走那么长的路。莱特希尔的观点在当时看来并非不合理。

寒冬也带来了某种好处。它迫使一些研究变得更严肃——更关注可重复性、更关注理论保证、更关注效果的实际测量而不是媒体的关注度。这些习惯并没有均匀地延续到今天。

下一章，我们将看一个在冬天里发育的故事。

它关于一种算法，关于错误的信号如何从输出层一层层传递回输入层，告诉每个参数该往哪个方向调整。它的名字叫反向传播。当它最终在 1986 年被广泛认识到的时候，沉睡的神经网络就醒了。

SECTION §02 · ENGAGE

Discussion

留言区 · GitHub-powered comments via Giscus