全书导航
大模型之路:从图灵、感知机到 ChatGPT · 卷 1

第 7 章:寒冬降临:为什么聪明的机器没有到来

本章问题:为什么 AI 的早期承诺没有兑现?


7.1 当钱停下来的时候

1973 年,英国政府做了一件在人工智能史上影响深远的事。它委托数学家詹姆斯·莱特希尔爵士对英国的人工智能研究进行一次全面的评估。莱特希尔是一位非常严谨的流体力学数学家,不是 AI 领域的内部人士。他用一个局外人的冷静目光审视了这个领域,然后写出了一份改变英国 AI 命运的评估报告。

报告的核心结论很直接:

迄今为止,人工智能领域的任何发现,都没有产生当初承诺的那种重大影响。

莱特希尔指出,AI 的许多技术在小规模、简化的场景中表现不错——但在面对真实世界的复杂性时,它们会撞上一堵不可逾越的墙:组合爆炸。当问题的规模变大,可能的解会以指数级增长,搜索和推理立刻崩溃。

英国政府对这份报告的反应是:几乎砍掉了所有大学里的人工智能研究经费。一个领域在一份报告之后被系统性地拆除。这被后来的人称为"人工智能的第一次寒冬"。

但莱特希尔的报告只是众多压力中的一根。在美国,DARPA 也在重新审视它对 AI 的投资——而结果同样不乐观。


7.2 美国的紧缩:承诺与失望的算术

1969 年,美国国会通过了曼斯菲尔德修正案,要求 DARPA 的经费必须用于"以任务为导向的直接研究",而不是"无方向的、基础性的研究"。这意味着:AI 研究者不能再靠"这可能很重要"来要钱了。他们必须说清楚——这个研究,具体能用来做什么?什么时候能用上?

这个要求在 AI 领域尤其要命。因为 AI 研究者以说话大胆著称。赫伯特·西蒙在 1957 年公开预测:十年之内,计算机会成为国际象棋冠军。纽厄尔和西蒙在 1958 年说:十年之内,计算机会发现并证明一个重要的数学定理。人们真正相信这些预测。

但十年过去了。又一个十年。计算机没有成为象棋冠军(直到 1997 年深蓝击败卡斯帕罗夫)。定理证明卡在了组合爆炸上。机器翻译在 1966 年就被一份政府报告宣判为"看不到近期突破的迹象"。语音识别只对固定词汇、固定语序管用——DARPA 在 CMU 投了三年每年 300 万美元的项目,最后发现系统只有在单词按特定顺序排列时才能理解。1974 年,这个项目被取消了。

DARPA 对 AI 的拨款在 1970 年代被大幅削减。一些实验室的年预算从几百万美元暴跌到几乎为零。

一个循环正在显现出来:研究者发出乐观预测→资助机构投入资金→现实的复杂性远超预期→成果迟迟不出现→资助撤离→方向被放弃。 这个循环不是某人恶意的结果,但它像一台机器一样自动运转。


7.3 莱特希尔的分析:为什么玩具问题不等于真实问题

莱特希尔报告的价值不只是"砍掉了经费"。它的分析本身值得认真读一读,因为它点出了早期 AI 的一个核心弱点。

莱特希尔把 AI 研究分成了三类:

A 类:高级自动化。 这是 AI 在窄领域取得温和成功的一类——比如棋类程序的搜索技术、简单的定理证明。莱特希尔对这一类的评价相对正面,认为它有价值,但规模效应有限。

B 类:计算机模拟中枢神经系统。 这是神经网络和感知机路线。莱特希尔认为这一类有些有趣的成果,但离产生实际系统还很远。他预测这类研究会在 25 年内被遗弃——他猜错了。但他反映了当时的主流看法。

C 类:桥梁类别——机器人学和通用问题求解。 这是莱特希尔批评最猛烈的部分。他说"这一类试图把 A 和 B 结合起来,但在很大程度上是失败的"。通用机器人、通用问题求解器——这些目标的规模太大,而 AI 的算法一旦面对真实世界中的感官输入、物理交互和常识推理,就立刻暴露了脆弱性。

他的核心论点是一个简单的数学观察:搜索空间会指数级爆炸。 如果你在一张20×20的棋盘上做规划——可能的局面多到全宇宙的原子数都远远不够代表。在抽象的小世界里,你可以用巧妙的启发式方法来剪枝。但在真实世界的问题里,"剪枝"本身就需要知道什么信息重要、什么信息不重要——而这恰恰是"智能"在做的事情。

换句话说:你需要先有智能,才能有效搜索;但你想用搜索来制造智能。这是一个循环。


7.4 过度承诺:一个自我馈送的陷阱

在这里必须停下来问一个问题:为什么 AI 研究者会反复做出后来被证明太乐观的预测?

一个常见回答是:他们自大、不诚实、为了抢经费而吹牛。这个答案太简单了。

更接近事实的答案是:在小世界里的初步成功,很容易让人低估推广大世界的难度。

当"逻辑理论家"证明了《数学原理》中的 38 个定理时,研究者自然觉得:这只是开始,把系统扩大,就能证明更多。当积木世界里的机器人可以"把红色方块放到蓝色方块上面"时,研究者自然觉得:这只是精简版,把感官信息加进来,就是真的机器人了。

他们没有欺骗任何人。他们自己首先相信了。

而且这个信念不是非理性的。科学和技术史上的许多突破,确实是先在小尺度上证明可行,然后通过工程手段扩大。莱特兄弟的第一次飞行只持续了 12 秒,但有人说"这证明重于空气的机械飞不起来"吗?没有——因为他们看到了原理,相信规模可以扩大。

AI 的问题在于:智能不是一架等比缩小的飞机。 在小世界里好用的方法,并不必然通过"加法"扩展到大世界。很多时候,它需要完全不同的方法。

这个教训到今天也还是新的。我们看到一个语言模型在小学数学题上表现不错,就很容易觉得"再加点数据和算力,它就能做大学数学"。也许是。也许不是。从"在小世界可用"到"在大世界可靠",中间没有自动扶梯。


7.5 第二次寒冬:当专家系统的泡沫破裂

如果说第一次寒冬(1970 年代中期到 1980 年代初)是政府资助撤离和学术批评的后果,那么第二次寒冬(1980 年代末到 1990 年代)则更多是商业逻辑的审判。

1980 年代初专家系统的商业成功带来的不全是好事。它吸引了一波狂热的投资——很多公司相信自己需要一个专家系统,却没有充分理解维护规则库在长期会变得多么昂贵和脆弱。

然后几件事几乎同时发生:

1987 年,专为 AI 设计的 LISP 机器市场崩溃了。新一代通用工作站——Sun、Apple、IBM——性能越来越强,价格越来越低,把那些昂贵的 LISP 专用硬件挤出了市场。一个价值 5 亿美元的产业在一年内几乎消失。

专家系统也开始暴露它们的经济问题。XCON 看起来省了钱,但维护它的规则库需要一支不断增长的工程师团队。每一条新规则可能和旧规则冲突,每次冲突都需要人类调试。这种成本并不是一次性的——它在系统整个生命周期内持续存在,而且随着规则数量增长,它可能变得比"雇人来做"还贵。

日本的第五代计算机计划在 1992 年悄然收尾——耗资约 8.5 亿美元,没有留下可商业化的重要成果。

美国国防部的战略计算计划(Strategic Computing Initiative)也在 1987 年后被新的项目主管大幅裁减。这位新主管对专家系统的评价是:"聪明的编程,但这不是 AI。"

资金再次离开。公司裁员、实验室关闭、博士生改了方向。


7.6 两次冬天,一个周期

两次寒冬过后,回头看,可以总结出一个似乎放之四海而皆准的 AI 投资周期:

演示成功→媒体放大→承诺膨胀→资本涌入→现实的墙→成果滞后→失望→寒冬。

这个周期的每一步都不是某个人的"过错"。演示成功是真实的——MYCIN 确实在细菌感染诊断上表现出色。媒体放大大致是不可避免的——"机器媲美医生"比"计算机辅助决策系统在一项研究中达到了 65% 的可接受率"好写标题。资本涌入有它自己的理性——如果专家系统真的能把知识变成可复制的软件产品,那它是一个巨大的商业机会。

问题是:从"演示成功"到"可靠产品"的这一步,在 AI 中比在大多数其他领域中要长、要贵、要难。

为什么?因为真实世界不是演示世界。

在演示世界里,输入被精心选择,边界被提前关闭,意外的干扰被排除在外。在真实世界里,意外就是日常。XCON 在演示中可以完美配置几十种 VAX 组件;部署后,它不断地遇到新组件、新约束、新例外——而这些"新"是无法被提前写进规则的。

同样的情况在今天的大模型身上也能看到。ChatGPT 在演示中可以通过律师资格考试、写出优雅代码、回答复杂问题。但在真实的工作场景中,它会幻觉、会被误导、会在关键时刻给出看似合理但完全错误的回答。第一个吃到螃蟹的人以为这就是螃蟹的全部味道。但当更多人来吃的时候,发现这只螃蟹的壳比预想的厚得多。


7.7 生存下来的事物

不过,AI 寒冬并没有杀死一切。有两件事在一次又一次的寒冬中活了下来——甚至变强了。

第一件活下来的事是核心算法的研究。当经费撤离、媒体转向、公司倒闭时,少数研究者仍然在推进基本的问题——如何处理不确定性、如何进行有效搜索、如何从数据中学习模式。这些人做的工作在当时不热门,但在下一次春天的到来中会成为地基。反向传播算法的成形和传播,就是一个在冬天里默默发育的故事——我们在下一章会详细讲。

第二件活下来的事更有讽刺意味:人们收敛了承诺,但扩大了知识的积累。 寒冬期间,研究者不再说"五年内实现通用智能",而是专注于在特定领域做出可靠的结果。统计方法、概率推理、贝叶斯网络——许多今天在 AI 中仍被广泛应用的技术框架,是在寒冬期间安静地建立起来的。

"冬天"并没有让 AI 研究的总人数下降。一个经常被忽略的数据是:SIGART(美国计算机学会人工智能特别兴趣组)的成员数在 1973 年到 1978 年间几乎翻了三倍。大实验室的经费被砍了,但更多的小团队和大学研究者进入了这个领域。寒冬这个词容易让人想到"一切停摆"——但真实的画面更像是:一场暴风雪让大路上的车停了下来,但小路仍然有人走,有些还走得比之前更远。


7.8 本章小实验:做一次"承诺审计"

翻开今天任何一款大模型的发布页,或者任何一篇 AI 相关的热门文章。找三到五个关于"AI 将能做到什么"的预测——可以是官方的,也可以是媒体说的,也可以是评论里经常出现的。

然后对每个预测问三个问题:

  1. 它说的是"现在能做到"还是"很快能做到"?如果是后者,多快?有具体的路线图吗?
  2. 如果它说的这个能力,在接下来的三年里没有出现,是因为什么原因?是技术障碍、成本问题、数据问题还是根本不可行?
  3. 有没有类似的、在过去被热烈预测过的 AI 能力,后来没有实现?如果有,当年的乐观期待和今天对这项新能力的期待,有什么结构上的相似之处?

你不需要给出"正确答案"。这个实验的目的是帮你建立一种习惯:在听到乐观预测时,把它和历史上被同类的乐观预测对比一下。

如果你发现今天的乐观,和以前落空了的乐观,在措辞、时机、论据结构上很像——那很可能不是巧合。那可能就是技术乐观主义的固定语法。


7.9 本章地图

text
问题:为什么 AI 的早期承诺没有兑现?现象:1970 年代和 1980 年代末,人工智能经历了两轮资金撤离——被称为"AI 寒冬"。原因:莱特希尔报告(1973)、DARPA 拨款紧缩、专家系统维护成本过高、LISP 机器市场崩溃(1987)、日本第五代计算机计划未能实现目标(1992)。根源:从"演示成功"到"可靠产品"的这步跨越,在 AI 领域比在大多数其他领域更远、更贵、更长——因为真实世界不像小世界一样可以被封闭式地规则化。今天:大模型正处于新一轮"演示成功→资本涌入→预期膨胀"的周期中。历史上的寒冬提醒我们:不是所有看起来触手可及的突破都真的触手可及——区分"这次真的不一样"和"这次只是看起来不一样"仍然是最重要的问题。

7.10 本章结语:冬天的意义

AI 寒冬通常被当作一段"黑暗时期"来讲。

这不太公平。

寒冬不是一群坏人蓄意扼杀好想法的结果。它是过度乐观的自然代价。没有研究者能预见到他们在 1950—1960 年代做的小规模成功,放大到真实世界需要走那么长的路。莱特希尔的观点在当时看来并非不合理。

寒冬也带来了某种好处。它迫使一些研究变得更严肃——更关注可重复性、更关注理论保证、更关注效果的实际测量而不是媒体的关注度。这些习惯并没有均匀地延续到今天。

下一章,我们将看一个在冬天里发育的故事。

它关于一种算法,关于错误的信号如何从输出层一层层传递回输入层,告诉每个参数该往哪个方向调整。它的名字叫反向传播。当它最终在 1986 年被广泛认识到的时候,沉睡的神经网络就醒了。

SECTION §02 · ENGAGE

Discussion

留言区 · GitHub-powered comments via Giscus