全书导航

大模型之路：从图灵、感知机到 ChatGPT · 卷 1

第 3 章：感知机：第一台会学习的机器

本章问题：机器能不能从例子中学习？

3.1 1958 年的头条

1958 年 7 月，《纽约时报》发表了一篇报道，标题是：

新海军设备边做边学：心理学家展示了一台能阅读并能越变越聪明的计算机雏形。

报道中引述了一段话，后来成为了人工智能史上被引用最多的句子之一——美国海军预计，这台机器将来可以走路、说话、看见、写作、自我繁殖，甚至意识到自己的存在。

这台机器的名字叫 Mark I Perceptron。

它不是你们想象中的计算机。没有屏幕，没有键盘，没有操作系统。它是一台由电机、电位器、电阻和电线组成的模拟装置。它的核心是一块 20 × 20 的光电池阵列，相当于 400 个"感光神经元"。

但它的创造者，康奈尔大学的心理学家弗兰克·罗森布拉特，对它赋予了远超时代的想象。

罗森布拉特相信，他正在制造的不仅仅是另一台计算机器。他正在接近学习的本质。

在此之前，机器都是按照人写好的规则工作。你告诉机器每一步做什么，它就做什么。如果规则没有覆盖到某个情况，机器就会出错。这就是符号主义的思路：智能来自规则。

罗森布拉特的信念完全不同——机器不应该被编程。它应该被训练。

这听起来稀松平常，但在 1958 年，这是一个核弹级的想法。它的含义是：人不需要预先知道正确答案。人只需要给机器看足够多的例子，机器自己会找出规律。

这是一个从"编程智能"到"学习智能"的跨越。

3.2 机器的"神经元"

要理解感知机，先忘掉电脑，想想大脑。

我们的大脑里有大约 860 亿个神经元。单个神经元的工作方式可以粗略描述为：它从其他神经元接收信号，当信号总量超过某个临界值，它就"发放"——向下一群神经元输出信号。

神经元不执行任何程序。它只是根据输入信号的强弱决定自己是否激活。

罗森布拉特的想法就是：能不能在机器里造一个非常简化的神经元？

这个简化神经元的工作方式是：

它接收多个输入信号（数字），每个输入乘上一个"权重"（表示这个输入有多重要），然后把这些加权后的信号加起来。如果总和超过某个阈值，它就输出"是"（或者说 1）；如果没超过，就输出"否"（或者说 0）。

用更日常的比喻来说：你在决定今天要不要带伞。

你考虑几个因素——天看起来阴不阴？天气预报说下雨的概率多大？你今天是不是要走很多路？你昨天有没有因为没带伞被淋湿？每个因素对你的决定影响不同。你最近刚被淋湿过？那这个因素的"权重"就特别高。

"天阴 + 预报有雨 + 要走很多路 + 昨天刚被淋"——加权求和，超过你心里的"带伞阈值"，结论：带伞。

感知机做的就是类似的事。只不过它不是真的思考，它只是在做数学：加权求和，和阈值比大小。

简单到你觉得"这也配叫智能？"

但请注意：如果机器能从数据中学会每个因素的权重，而不是由人来规定它们——那它就不再是一个被编程的系统。它是被训练出来的。

3.3 学习，就是反复犯错

感知机怎么学？

步骤简单到令人发笑：

从训练数据里拿一个样本，输入感知机。
感知机给出一个预测。
如果预测对了，权重不动。
如果预测错了，调整权重——往"未来少犯这种错"的方向调。

然后拿下一个样本。重复。再重复。

几千次、几万次之后，权重逐渐稳定，感知机的预测准确率越来越高。

这个过程有一个很土但很准确的名字：从错误中学习。

人类也是这么学很多事的。你第一次炒菜，盐放多了，下次少放一点。第一次投篮，力道不够，下次加一点力。你不需要先读完烹饪化学或运动生物力学才能做饭或打球。你只需要试、出错、调整方向，再试。

感知机没有奥妙。它做的事情和你"试炒菜"一模一样。

但也有一个重要的区别：感知机调整的不是直觉，而是一组具体的数字——权重。你可以把这些数字写在纸上，可以传给另一台机器，可以对它进行数学分析。这就像你可以查看一个菜单的精确配方，而不仅仅是"感觉咸了一点点"。

这就是人工神经网络和生物大脑的一个关键差别：人工神经网络不是黑箱，至少在最简单的形式下，它的"学到了什么"完全透明。

3.4 线性分类：画一条线，把世界切成两半

感知机到底能做什么？

它最擅长的事情叫线性分类：把两类东西用一条直线分开。

想象一张桌子上散落着红色弹珠和蓝色弹珠。如果这些弹珠不是随机混在一起的——比如红色的都偏左偏上，蓝色的都偏右偏下——那你可以用一把直尺斜斜地放在桌上，让红珠子都在一边，蓝珠子都在另一边。

感知机做的事情就是找到这把"尺子"的位置和角度。

用数学语言说：感知机在空间中寻找一个决策边界——一条直线（在二维平面上）、一个平面（在三维空间里）或一个超平面（在高维空间里），把不同类别的东西分开。

这听起来非常有限。只能画一条直线？真实世界哪有这么简单？

说得没错。这也是感知机后来遭遇的核心批评。但在 1958 年，能画这一条线已经是革命性的——因为在感知机之前，没有机器能"自己"画这条线。

符号主义路线也可以做分类：人可以写规则——"如果这封信里提到'钱'和'继承'，标记为垃圾邮件"。但规则是人写的。红珠子偏左偏上这个规律，是机器自己发现的。

人没有告诉感知机"红色的在左边"。人只是给了它足够多的例子，它自己找到了那条分界线。

这个区别就是"编程"和"学习"的区别。

3.5 Mark I Perceptron：机器里的大脑模型

回到那台机器本身。

Mark I Perceptron 的结构分三层。输入层是一块感光板：操作员把一张写着字母的卡片放在扫描台上，400 个光电管分别感知卡片上不同位置的光线强弱，产生 400 个电信号。中间层有 512 个"关联单元"，它们和输入层之间的连接是固定的——罗森布拉特故意用了随机连线，为的是模仿视网膜到视觉皮层的那种非精确对应。只有最后一层——8 个输出单元——的连接权重是可以被训练的。当机器输出正确时，那些控制权重的电机维持不动；当输出错误时，电机微微转动，改变电阻值。

从学习的角度看，这是一个单层网络：只有最后一层在学。但从架构上看，它已经有了现代神经网络"多层 + 部分可训练"的雏形。

整个过程没有一行程序代码。没有 CPU 在执行 if-else。电信号穿过电线，通过电阻器，累积在回路里，然后触发电机的转动。学习的过程是物理的——电机真的在转，电位器真的在改电阻值，电线真的在重新分配电流。

在今天看来，这当然粗糙到可笑。你手机里任何一个 App 的运行都远比 Mark I Perceptron 复杂。

但如果你放下后见之明，试着回到 1958 年，你可能会有不一样的感觉。

当时的人们看到的是：一台没有程序的机器，在观察了几十个样本之后，开始自己做出正确的判断。它不是被编程的——它被训练了。这就是那种令人震惊的感觉的来源。不是因为机器算得多快，而是因为它展示了一种可能性：机器的行为可以不必由人预先写好。

这种震惊在今天仍然值得理解。因为这正是深度学习——乃至今天的大语言模型——在 2012 年之后让世界重新兴奋起来的同一个原因。

3.6 媒体狂热与罗森布拉特的乐观

Mark I Perceptron 的展示引发了大规模的媒体关注。《纽约时报》的报道只是冰山一角。报纸、杂志、广播都在讨论这台"会学习的机器"。

罗森布拉特本人也相当乐观。他公开预测，感知机最终会能够：

识别图像和模式；
理解语音；
在不同情境之间进行泛化。

不过，当时的媒体报道把预期拉得比罗森布拉特本人的预测更高。《纽约时报》那篇文章里，美国海军预期这台机器将来可以"走路、说话、看见、写作、自我繁殖，甚至意识到自己的存在"——这些更夸张的说法来自军方和记者，而不是罗森布拉特的论文。

早在 1957 年，罗森布拉特就在一台 IBM 704 计算机上实现了软件版的感知机。1960 年 6 月 23 日，Mark I Perceptron 首次公开展示，并在演示中从不同角度识别字母。成功。紧接着，各种关于"电子大脑"和"会思考的机器"的话题席卷了公众想象。

当时的气氛很容易让人联想到 1956 年达特茅斯会议之后的乐观主义——只不过这次，乐观的对象从"规则可以制造智能"变成了"学习可以制造智能"。

这也是人工智能史上一条永不过时的教训：一个真正的突破出现之后，最难的事情不是让机器变得更好，而是区分"这次真的不一样"和"这次只是看起来不一样"。

感知机属于哪一种？在当时没人知道答案。

3.7 本章小实验：用眼睛做一个感知机

在不写代码之前，你可以先用自己的大脑来体验一下感知机的工作原理。

假设你在考虑要不要去看一场电影。你考虑三个因素：

这部电影的评分高不高？（1 = 高，0 = 不高）
今天天气好不好？（1 = 好，0 = 不好）
有没有朋友一起？（1 = 有，0 = 没有）

你觉得评分最重要（给它一个大权重），有朋友一起其次（中等权重），天气最不重要（给它一个小权重甚至忽略）。

现在，试着给这三个因素分配你自己的权重，然后设置一个阈值。用这个规则去判断你最近看过的几部电影——是不是在评分高且有朋友一起的情况下，你更可能去看？

你刚刚做的，就是一个感知机在做的事。你选择权重，心算加权和，和阈值比较，做出决策。

唯一不同的是：你的权重是自己凭经验选的。感知机的权重是从数据中学来的。

这个差别，就是"编程"与"学习"之间的那条线。

在后面的实践章节中，我们会用代码复现这个过程，让机器自己学会"要不要去看电影"这个决策。

3.8 本章地图

text

问题：机器能不能从例子中学习？方法：感知机——一种可以在样本中调整权重、找到决策边界的简单学习算法。突破：第一次证明了机器可以不依赖预写规则，从数据中自己找到规律。局限：只能解决线性可分问题（这个问题将在下一章成为核心争议）。今天：现代神经网络的规模比感知机大了十亿倍，但"输入→加权→输出→根据错误调整"这个基本循环没有变。

问题：机器能不能从例子中学习？方法：感知机——一种可以在样本中调整权重、找到决策边界的简单学习算法。突破：第一次证明了机器可以不依赖预写规则，从数据中自己找到规律。局限：只能解决线性可分问题（这个问题将在下一章成为核心争议）。今天：现代神经网络的规模比感知机大了十亿倍，但"输入→加权→输出→根据错误调整"这个基本循环没有变。

3.9 本章结语：学习的种子

感知机没有实现它的乐观预言。

它不会走路，不会说话，不会意识到自己的存在。Mark I Perceptron 只是在一个玩具问题上找到了一条分界线。从"识别字母"到"理解语言"，中间隔着一片当时的硬件和算法根本无法触及的荒漠。

但它种下了一粒种子。

这粒种子不是一台具体的机器，而是一个具体的问题：

如果机器能从数据中学习，那它最多能学到什么程度？

这个问题在 1960 年代被有力地追问过一次——不是用鲜花和掌声，而是用犀利的数学批评。下一章，我们会看到这粒种子如何在冬天的土壤里沉睡，又为什么在沉睡中仍然活着。

那个批评者名叫马文·明斯基。他写的书会成为神经网络历史上最著名的一颗子弹。

SECTION §02 · ENGAGE

Discussion

留言区 · GitHub-powered comments via Giscus