第 4 章:感知机之死:为什么神经网络被冷落
本章问题:一个方向为什么会从热门变成冷门?
4.1 一颗子弹
1969 年,马文·明斯基和西摩尔·派珀特出版了一本书。
书名很朴素,就叫《感知机》。这本书的核心结论可以用一句话概括:单层感知机的能力极其有限,它甚至解决不了最简单的非线性问题。
这个结论在数学上是正确的。
但它产生的影响远超数学——这本书后来被称为"射向神经网络的第一颗子弹"。此后近二十年,神经网络研究几乎从主流人工智能研究中消失。资金转向了符号主义和专家系统。研究者纷纷离开。曾经在 1958 年让媒体疯狂的感知机,变成了一个没有人愿意提起的名字。
这是一个令人唏嘘的故事:一个曾经让世界兴奋的技术路线,几乎被一本数学著作判了死刑,而二十年后,人们发现这条路其实能走通——只要加上几层,并且找到训练它们的方法。
4.2 明斯基是谁?
要理解"感知机之死",先要理解明斯基在当时的分量。
马文·明斯基是 MIT 人工智能实验室的联合创始人,也是在人工智能领域最有话语权的人之一。他不仅在技术上贡献卓著——后来获得了图灵奖——而且在学术风格上以极度理性、极度严格著称。
他不轻视神经网络。事实上,他在 1950 年代的早期研究就和神经网络密切相关。他和罗森布拉特甚至有过一段时期的观点交集:他们都对大脑的概率模型感兴趣。
但明斯基更相信理论保证。他不接受"看起来能行"——他要求严格的数学证明。当他看到感知机引起的狂热时,他决定做一件事:认真写下感知机到底能做什么、不能做什么。
他做到了。而且写得很漂亮。
《感知机》这本书本身是一本严谨的数学著作。它没有恶语相向,没有蓄意攻击。它只是用数学精确证明了:单层感知机是一类能力非常有限的计算模型。
问题在于,这本书的结论被广泛误读为——甚至到现在依然被很多人误读为——"明斯基证明了神经网络没有前途"。
他没有证明这个。他证明的是单层网络有硬伤。但当时的学术界和资助机构并不总是区分"单层网络"和"一切网络"。
4.3 XOR:一个最简单的不可能
《感知机》里最著名的一个结论是:单层感知机无法学会"异或"——XOR。
异或是什么?
异或是一种非常简单的逻辑运算:当两个输入相同时,输出"否";当两个输入不同时,输出"是"。
用生活化的例子来说:你和朋友商量去哪吃饭。如果你们两个意见一致(都想去中餐,或者都想去日料),就去——没问题。如果你们两个意见不一致(你想去中餐、朋友想去日料,或者反过来),你们就换个地方。这个决策规则就是异或。
感知机的问题在于:它只能在空间中画一条直线来分类。而在 XOR 问题里,没有哪条直线能把两类情况分开。无论你怎么划线,总有至少一个点会落到错误的一边。
这件事在数学上很好证明——明斯基和派珀特证明了。但它的真正意义需要多说一句:XOR 并不是一个古怪的、人造的数学玩具。它意味着感知机连一种最简单的不对称规则都学不会——而真实世界充满了远比 XOR 复杂的非线性关系。
"天阴且有雨→带伞"这个判断是线性的:因素越多,倾向越强。
"两人意见不同→不去"这个判断是非线性的:不一致本身才是关键,而不是"意见的数量"有多高。
单层感知机只能处理前者。它处理不了后者。
4.4 问题只在"单层"吗?
明斯基和派珀特的数学批评本身没有问题。但他们讨论的严格范围是"单层感知机"——也就是像 Mark I Perceptron 那样,只有一层可训练权重的网络。
他们也在书中讨论过多层网络的可能性。他们的态度是:目前没有已知的方法可以训练多层网络。
这也是事实。在当时,反向传播算法还没有被广泛认识到可以用来训练多层神经网络。明斯基和派珀特的困惑很真实:如果第一层的权重是固定的(像 Mark I Perceptron 那样),那么多加点层没有意义;如果每一层都可以训练,那我们不知道怎么训练。
他们并不是在说"多层网络也没用"。他们在说"多层网络没有已知的训练方法,因此不能作为一种工程方案"。
这个区分很重要,因为在实际的历史中,它被抹掉了。
资助机构、期刊编辑、研究生导师、记者——他们听到的不是"单层感知机有局限",而是"神经网络没有前途"。一条数学定理在层层传播中变成了一条行业判决。
这就是科学研究中的一个典型悲剧:证明是正确的,结论却是错误的。
4.5 寒冬的降临
《感知机》的出版引发了连锁反应。
首先是资金。1960 年代末到 1970 年代初,美国多个资助机构开始削减对神经网络研究的拨款。钱流向了另一个方向——符号主义人工智能。这个方向有明确定义的问题、严谨的逻辑框架,以及正在商业化成功的专家系统。
其次是人才。研究生想要发表论文、拿到奖学金、找到工作。如果你的研究方向已经被本领域最权威的人物判定为"没有前途",你会做什么选择?很多人选择了离开。
第三是研究文化。神经网络在 1958 年引发的想象是"机器能学会任何事"。1969 年之后,这个想象被"数学家已证明它不行"所取代。即使有人怀疑这个结论可能过于绝对,也很少有人愿意公开为神经网络辩护。
感知机并没有被彻底杀死。少数研究者——比如斯蒂芬·格罗斯伯格、杰弗里·辛顿——在 1970 年代坚持做神经网络相关的研究。但他们是少数,而且很大程度上被边缘化了。
这就是人工智能的第一次"寒冬"。不是因为技术完全不行,而是因为承诺太大、批评太有力、替代路线太诱人——三股力量合在一起,一根稻草压垮了骆驼。
4.6 罗森布拉特的最后时光
关于罗森布拉特的去世,没有证据表明和《感知机》的批评有直接关系。他的人生中有许多压力——职业的、个人的、学术的——但将这些简化为"因为被明斯基批评而消沉"是一种廉价的戏剧化。
不过,有一个事实令人无法不感慨:罗森布拉特在 1960 年代后期就在研究多层网络的可能性了。他意识到单层感知机的局限,并且相信增加层是一种出路。这和明斯基的判断并不矛盾——明斯基也说"多层可能有用,但我们不知道怎么训练"。罗森布拉特想做的,正是找到训练多层网络的方法。
他没来得及完成。
1971 年 7 月 11 日,他驾船出航,在切萨皮克湾遇难。那天是他 43 岁生日。
十四年后,1986 年,大卫·鲁梅尔哈特、杰弗里·辛顿和罗纳德·威廉姆斯发表了一篇论文,展示了反向传播算法可以有效训练多层神经网络。这篇论文被广泛视为神经网络复兴的标志。
明斯基在那之后也承认,他对多层网络的悲观预测是错的。1988 年,《感知机》出了新的增订版,明斯基和派珀特在序言中写道:单层网络的局限不应该被推广到多层网络。
但这已经是二十年之后了。
4.7 一节课:批评的力量和局限
"感知机之死"在人工智能史上是一个经常被引用的教训。但不同的人从中学到的东西不一样。
有人说:大人物不应该随意批评新方向,会扼杀创新。
有人说:批评者本身没有做错,是资助体系太浮躁,把数学局限曲解成了方向判决。
也有人说:即使没有《感知机》,神经网络当时也走不远——因为缺少数据、算力和训练算法。批评只是加速了一个本来就会来的低谷。
这三种说法都有道理。但也许最值得记住的一点是:技术方向的兴衰很少由纯技术因素决定。
一个时代的硬件条件、数据条件、算法成熟度、资助环境、学术声望系统——这些因素共同决定了什么路线能活下去,什么路线会休眠。纯数学证明只能告诉你一件事能不能做,不能告诉你一个方向值不值得坚持。
我们今天回头看,会觉得"明斯基当然错了"——多层网络后来不是很好用吗?但这种后见之明不够公平。在 1969 年,说"不知道多层怎么训练"是一个诚实的判断。真正的问题是:为什么一个诚实的判断,会变成整个方向的死刑判决?
这个问题到今天也没有完全过时。
大模型时代的每一次"这不可能"和"这还不够"的争论里,仍然能看到这种动态:一篇论文、一个批评、一个负面的基准测试结果,可能会影响研究资金的流向,也可能使一个方向被过早放弃。
学会区分"这个技术现在做不到"和"这个方向永远不可能",可能是解读人工智能史时最重要的能力。
4.8 本章小实验:XOR——亲手试试那条画不出的线
取一张白纸,画一个正方形。
正方形的四个顶点代表异或(XOR)运算的四种情况:
- 左下角(0, 0):输出"否"——标一个圆圈。
- 左上角(0, 1):输出"是"——标一个叉叉。
- 右下角(1, 0):输出"是"——标一个叉叉。
- 右上角(1, 1):输出"否"——标一个圆圈。
现在,试着用一把直尺在这张纸上画一条直线,让所有圆圈在一边,所有叉叉在另一边。
你会很快发现:这不可能。左下和右上都是圆圈,但它们分别在对角线的两端——任何一条直线都无法把它们和两个叉叉分开。
这就是感知机面对 XOR 时的困境。
而多层网络的思路是这样的:先画一条线把(0, 1)和其余三个点分开;再画一条线把(1, 0)和其余三个点分开;然后把这两条线的结果组合起来——"如果你在第一张图里是叉叉,或者在第二张图里是叉叉,那么最终输出是叉叉"。这就需要一个额外的层来做这个"组合"工作。
这个简单的思路,就是多层网络为什么能突破单层局限的直觉原因。
4.9 本章地图
4.10 本章结语:沉默的二十年
从 1969 年《感知机》出版,到 1986 年反向传播论文发表,中间隔了将近二十年。
这二十年里,人工智能没有停下脚步。专家系统在商业上取得了成果。符号主义在逻辑和搜索上走得很远。但神经网络——这个曾经让世界相信机器可以自己学习的路线——几乎从主流视野中消失了。
它并没有死。只是沉到了水底。
在下一章,我们会看到人工智能选择的另一条路线:不靠从数据中学习,而靠人把知识写成规则。这条路线有一个更远大的名字——符号主义。它将主导人工智能二十年的方向。
而神经网络的火种,还要在土里再埋一阵子。
Discussion
留言区 · GitHub-powered comments via Giscus