全书导航

大模型之路：从图灵、感知机到 ChatGPT · 卷 1

第 4 章：感知机之死：为什么神经网络被冷落

本章问题：一个方向为什么会从热门变成冷门？

4.1 一颗子弹

1969 年，马文·明斯基和西摩尔·派珀特出版了一本书。

书名很朴素，就叫《感知机》。这本书的核心结论可以用一句话概括：单层感知机的能力极其有限，它甚至解决不了最简单的非线性问题。

这个结论在数学上是正确的。

但它产生的影响远超数学——这本书后来被称为"射向神经网络的第一颗子弹"。此后近二十年，神经网络研究几乎从主流人工智能研究中消失。资金转向了符号主义和专家系统。研究者纷纷离开。曾经在 1958 年让媒体疯狂的感知机，变成了一个没有人愿意提起的名字。

这是一个令人唏嘘的故事：一个曾经让世界兴奋的技术路线，几乎被一本数学著作判了死刑，而二十年后，人们发现这条路其实能走通——只要加上几层，并且找到训练它们的方法。

4.2 明斯基是谁？

要理解"感知机之死"，先要理解明斯基在当时的分量。

马文·明斯基是 MIT 人工智能实验室的联合创始人，也是在人工智能领域最有话语权的人之一。他不仅在技术上贡献卓著——后来获得了图灵奖——而且在学术风格上以极度理性、极度严格著称。

他不轻视神经网络。事实上，他在 1950 年代的早期研究就和神经网络密切相关。他和罗森布拉特甚至有过一段时期的观点交集：他们都对大脑的概率模型感兴趣。

但明斯基更相信理论保证。他不接受"看起来能行"——他要求严格的数学证明。当他看到感知机引起的狂热时，他决定做一件事：认真写下感知机到底能做什么、不能做什么。

他做到了。而且写得很漂亮。

《感知机》这本书本身是一本严谨的数学著作。它没有恶语相向，没有蓄意攻击。它只是用数学精确证明了：单层感知机是一类能力非常有限的计算模型。

问题在于，这本书的结论被广泛误读为——甚至到现在依然被很多人误读为——"明斯基证明了神经网络没有前途"。

他没有证明这个。他证明的是单层网络有硬伤。但当时的学术界和资助机构并不总是区分"单层网络"和"一切网络"。

4.3 XOR：一个最简单的不可能

《感知机》里最著名的一个结论是：单层感知机无法学会"异或"——XOR。

异或是什么？

异或是一种非常简单的逻辑运算：当两个输入相同时，输出"否"；当两个输入不同时，输出"是"。

用生活化的例子来说：你和朋友商量去哪吃饭。如果你们两个意见一致（都想去中餐，或者都想去日料），就去——没问题。如果你们两个意见不一致（你想去中餐、朋友想去日料，或者反过来），你们就换个地方。这个决策规则就是异或。

感知机的问题在于：它只能在空间中画一条直线来分类。而在 XOR 问题里，没有哪条直线能把两类情况分开。无论你怎么划线，总有至少一个点会落到错误的一边。

这件事在数学上很好证明——明斯基和派珀特证明了。但它的真正意义需要多说一句：XOR 并不是一个古怪的、人造的数学玩具。它意味着感知机连一种最简单的不对称规则都学不会——而真实世界充满了远比 XOR 复杂的非线性关系。

"天阴且有雨→带伞"这个判断是线性的：因素越多，倾向越强。

"两人意见不同→不去"这个判断是非线性的：不一致本身才是关键，而不是"意见的数量"有多高。

单层感知机只能处理前者。它处理不了后者。

4.4 问题只在"单层"吗？

明斯基和派珀特的数学批评本身没有问题。但他们讨论的严格范围是"单层感知机"——也就是像 Mark I Perceptron 那样，只有一层可训练权重的网络。

他们也在书中讨论过多层网络的可能性。他们的态度是：目前没有已知的方法可以训练多层网络。

这也是事实。在当时，反向传播算法还没有被广泛认识到可以用来训练多层神经网络。明斯基和派珀特的困惑很真实：如果第一层的权重是固定的（像 Mark I Perceptron 那样），那么多加点层没有意义；如果每一层都可以训练，那我们不知道怎么训练。

他们并不是在说"多层网络也没用"。他们在说"多层网络没有已知的训练方法，因此不能作为一种工程方案"。

这个区分很重要，因为在实际的历史中，它被抹掉了。

资助机构、期刊编辑、研究生导师、记者——他们听到的不是"单层感知机有局限"，而是"神经网络没有前途"。一条数学定理在层层传播中变成了一条行业判决。

这就是科学研究中的一个典型悲剧：证明是正确的，结论却是错误的。

4.5 寒冬的降临

《感知机》的出版引发了连锁反应。

首先是资金。1960 年代末到 1970 年代初，美国多个资助机构开始削减对神经网络研究的拨款。钱流向了另一个方向——符号主义人工智能。这个方向有明确定义的问题、严谨的逻辑框架，以及正在商业化成功的专家系统。

其次是人才。研究生想要发表论文、拿到奖学金、找到工作。如果你的研究方向已经被本领域最权威的人物判定为"没有前途"，你会做什么选择？很多人选择了离开。

第三是研究文化。神经网络在 1958 年引发的想象是"机器能学会任何事"。1969 年之后，这个想象被"数学家已证明它不行"所取代。即使有人怀疑这个结论可能过于绝对，也很少有人愿意公开为神经网络辩护。

感知机并没有被彻底杀死。少数研究者——比如斯蒂芬·格罗斯伯格、杰弗里·辛顿——在 1970 年代坚持做神经网络相关的研究。但他们是少数，而且很大程度上被边缘化了。

这就是人工智能的第一次"寒冬"。不是因为技术完全不行，而是因为承诺太大、批评太有力、替代路线太诱人——三股力量合在一起，一根稻草压垮了骆驼。

4.6 罗森布拉特的最后时光

关于罗森布拉特的去世，没有证据表明和《感知机》的批评有直接关系。他的人生中有许多压力——职业的、个人的、学术的——但将这些简化为"因为被明斯基批评而消沉"是一种廉价的戏剧化。

不过，有一个事实令人无法不感慨：罗森布拉特在 1960 年代后期就在研究多层网络的可能性了。他意识到单层感知机的局限，并且相信增加层是一种出路。这和明斯基的判断并不矛盾——明斯基也说"多层可能有用，但我们不知道怎么训练"。罗森布拉特想做的，正是找到训练多层网络的方法。

他没来得及完成。

1971 年 7 月 11 日，他驾船出航，在切萨皮克湾遇难。那天是他 43 岁生日。

十四年后，1986 年，大卫·鲁梅尔哈特、杰弗里·辛顿和罗纳德·威廉姆斯发表了一篇论文，展示了反向传播算法可以有效训练多层神经网络。这篇论文被广泛视为神经网络复兴的标志。

明斯基在那之后也承认，他对多层网络的悲观预测是错的。1988 年，《感知机》出了新的增订版，明斯基和派珀特在序言中写道：单层网络的局限不应该被推广到多层网络。

但这已经是二十年之后了。

4.7 一节课：批评的力量和局限

"感知机之死"在人工智能史上是一个经常被引用的教训。但不同的人从中学到的东西不一样。

有人说：大人物不应该随意批评新方向，会扼杀创新。

有人说：批评者本身没有做错，是资助体系太浮躁，把数学局限曲解成了方向判决。

也有人说：即使没有《感知机》，神经网络当时也走不远——因为缺少数据、算力和训练算法。批评只是加速了一个本来就会来的低谷。

这三种说法都有道理。但也许最值得记住的一点是：技术方向的兴衰很少由纯技术因素决定。

一个时代的硬件条件、数据条件、算法成熟度、资助环境、学术声望系统——这些因素共同决定了什么路线能活下去，什么路线会休眠。纯数学证明只能告诉你一件事能不能做，不能告诉你一个方向值不值得坚持。

我们今天回头看，会觉得"明斯基当然错了"——多层网络后来不是很好用吗？但这种后见之明不够公平。在 1969 年，说"不知道多层怎么训练"是一个诚实的判断。真正的问题是：为什么一个诚实的判断，会变成整个方向的死刑判决？

这个问题到今天也没有完全过时。

大模型时代的每一次"这不可能"和"这还不够"的争论里，仍然能看到这种动态：一篇论文、一个批评、一个负面的基准测试结果，可能会影响研究资金的流向，也可能使一个方向被过早放弃。

学会区分"这个技术现在做不到"和"这个方向永远不可能"，可能是解读人工智能史时最重要的能力。

4.8 本章地图

text

问题：一个技术方向为什么会从热门变成冷门？方法：明斯基和派珀特用数学严格证明了单层感知机的局限（以 XOR 问题为核心）。突破：这次批评不是错误的——它在数学上是正确的。单层感知机确实有不可逾越的局限。局限：批评被过度推广——"单层感知机不行"被误解为"所有神经网络都不行"。今天：技术方向的兴衰不只取决于理论证明，还取决于数据、算力、算法和资助环境的协同。大模型时代的每一次争议中，仍然能看到类似的动态。

问题：一个技术方向为什么会从热门变成冷门？方法：明斯基和派珀特用数学严格证明了单层感知机的局限（以 XOR 问题为核心）。突破：这次批评不是错误的——它在数学上是正确的。单层感知机确实有不可逾越的局限。局限：批评被过度推广——"单层感知机不行"被误解为"所有神经网络都不行"。今天：技术方向的兴衰不只取决于理论证明，还取决于数据、算力、算法和资助环境的协同。大模型时代的每一次争议中，仍然能看到类似的动态。

4.9 本章结语：沉默的二十年

从 1969 年《感知机》出版，到 1986 年反向传播论文发表，中间隔了将近二十年。

这二十年里，人工智能没有停下脚步。专家系统在商业上取得了成果。符号主义在逻辑和搜索上走得很远。但神经网络——这个曾经让世界相信机器可以自己学习的路线——几乎从主流视野中消失了。

它并没有死。只是沉到了水底。

在下一章，我们会看到人工智能选择的另一条路线：不靠从数据中学习，而靠人把知识写成规则。这条路线有一个更远大的名字——符号主义。它将主导人工智能二十年的方向。

而神经网络的火种，还要在土里再埋一阵子。

SECTION §02 · ENGAGE

Discussion

留言区 · GitHub-powered comments via Giscus