全书导航
大模型之路:从图灵、感知机到 ChatGPT · 卷 1

第 3 章:感知机:第一台会学习的机器

本章问题:机器能不能从例子中学习?


3.1 1958 年的头条

1958 年 7 月,《纽约时报》发表了一篇报道,标题是:

新海军设备边做边学:心理学家展示了一台能阅读并能越变越聪明的计算机雏形。

报道中引述了一段话,后来成为了人工智能史上被引用最多的句子之一——美国海军预计,这台机器将来可以走路、说话、看见、写作、自我繁殖,甚至意识到自己的存在。

这台机器的名字叫 Mark I Perceptron。

它不是你们想象中的计算机。没有屏幕,没有键盘,没有操作系统。它是一台由电机、电位器、电阻和电线组成的模拟装置。它的核心是一块 20 × 20 的光电池阵列,相当于 400 个"感光神经元"。

但它的创造者,康奈尔大学的心理学家弗兰克·罗森布拉特,对它赋予了远超时代的想象。

罗森布拉特相信,他正在制造的不仅仅是另一台计算机器。他正在接近学习的本质。

在此之前,机器都是按照人写好的规则工作。你告诉机器每一步做什么,它就做什么。如果规则没有覆盖到某个情况,机器就会出错。这就是符号主义的思路:智能来自规则。

罗森布拉特的信念完全不同——机器不应该被编程。它应该被训练。

这听起来稀松平常,但在 1958 年,这是一个核弹级的想法。它的含义是:人不需要预先知道正确答案。人只需要给机器看足够多的例子,机器自己会找出规律。

这是一个从"编程智能"到"学习智能"的跨越。


3.2 机器的"神经元"

要理解感知机,先忘掉电脑,想想大脑。

我们的大脑里有大约 860 亿个神经元。单个神经元的工作方式可以粗略描述为:它从其他神经元接收信号,当信号总量超过某个临界值,它就"发放"——向下一群神经元输出信号。

神经元不执行任何程序。它只是根据输入信号的强弱决定自己是否激活。

罗森布拉特的想法就是:能不能在机器里造一个非常简化的神经元?

这个简化神经元的工作方式是:

它接收多个输入信号(数字),每个输入乘上一个"权重"(表示这个输入有多重要),然后把这些加权后的信号加起来。如果总和超过某个阈值,它就输出"是"(或者说 1);如果没超过,就输出"否"(或者说 0)。

用更日常的比喻来说:你在决定今天要不要带伞。

你考虑几个因素——天看起来阴不阴?天气预报说下雨的概率多大?你今天是不是要走很多路?你昨天有没有因为没带伞被淋湿?每个因素对你的决定影响不同。你最近刚被淋湿过?那这个因素的"权重"就特别高。

"天阴 + 预报有雨 + 要走很多路 + 昨天刚被淋"——加权求和,超过你心里的"带伞阈值",结论:带伞。

感知机做的就是类似的事。只不过它不是真的思考,它只是在做数学:加权求和,和阈值比大小。

简单到你觉得"这也配叫智能?"

但请注意:如果机器能从数据中学会每个因素的权重,而不是由人来规定它们——那它就不再是一个被编程的系统。它是被训练出来的。


3.3 学习,就是反复犯错

感知机怎么学?

步骤简单到令人发笑:

  1. 从训练数据里拿一个样本,输入感知机。
  2. 感知机给出一个预测。
  3. 如果预测对了,权重不动。
  4. 如果预测错了,调整权重——往"未来少犯这种错"的方向调。

然后拿下一个样本。重复。再重复。

几千次、几万次之后,权重逐渐稳定,感知机的预测准确率越来越高。

这个过程有一个很土但很准确的名字:从错误中学习

人类也是这么学很多事的。你第一次炒菜,盐放多了,下次少放一点。第一次投篮,力道不够,下次加一点力。你不需要先读完烹饪化学或运动生物力学才能做饭或打球。你只需要试、出错、调整方向,再试。

感知机没有奥妙。它做的事情和你"试炒菜"一模一样。

但也有一个重要的区别:感知机调整的不是直觉,而是一组具体的数字——权重。你可以把这些数字写在纸上,可以传给另一台机器,可以对它进行数学分析。这就像你可以查看一个菜单的精确配方,而不仅仅是"感觉咸了一点点"。

这就是人工神经网络和生物大脑的一个关键差别:人工神经网络不是黑箱,至少在最简单的形式下,它的"学到了什么"完全透明。


3.4 线性分类:画一条线,把世界切成两半

感知机到底能做什么?

它最擅长的事情叫线性分类:把两类东西用一条直线分开。

想象一张桌子上散落着红色弹珠和蓝色弹珠。如果这些弹珠不是随机混在一起的——比如红色的都偏左偏上,蓝色的都偏右偏下——那你可以用一把直尺斜斜地放在桌上,让红珠子都在一边,蓝珠子都在另一边。

感知机做的事情就是找到这把"尺子"的位置和角度。

用数学语言说:感知机在空间中寻找一个决策边界——一条直线(在二维平面上)、一个平面(在三维空间里)或一个超平面(在高维空间里),把不同类别的东西分开。

这听起来非常有限。只能画一条直线?真实世界哪有这么简单?

说得没错。这也是感知机后来遭遇的核心批评。但在 1958 年,能画这一条线已经是革命性的——因为在感知机之前,没有机器能"自己"画这条线。

符号主义路线也可以做分类:人可以写规则——"如果这封信里提到'钱'和'继承',标记为垃圾邮件"。但规则是人写的。红珠子偏左偏上这个规律,是机器自己发现的。

人没有告诉感知机"红色的在左边"。人只是给了它足够多的例子,它自己找到了那条分界线。

这个区别就是"编程"和"学习"的区别。


3.5 Mark I Perceptron:机器里的大脑模型

回到那台机器本身。

Mark I Perceptron 的结构分三层。输入层是一块感光板:操作员把一张写着字母的卡片放在扫描台上,400 个光电管分别感知卡片上不同位置的光线强弱,产生 400 个电信号。中间层有 512 个"关联单元",它们和输入层之间的连接是固定的——罗森布拉特故意用了随机连线,为的是模仿视网膜到视觉皮层的那种非精确对应。只有最后一层——8 个输出单元——的连接权重是可以被训练的。当机器输出正确时,那些控制权重的电机维持不动;当输出错误时,电机微微转动,改变电阻值。

从学习的角度看,这是一个单层网络:只有最后一层在学。但从架构上看,它已经有了现代神经网络"多层 + 部分可训练"的雏形。

整个过程没有一行程序代码。没有 CPU 在执行 if-else。电信号穿过电线,通过电阻器,累积在回路里,然后触发电机的转动。学习的过程是物理的——电机真的在转,电位器真的在改电阻值,电线真的在重新分配电流。

在今天看来,这当然粗糙到可笑。你手机里任何一个 App 的运行都远比 Mark I Perceptron 复杂。

但如果你放下后见之明,试着回到 1958 年,你可能会有不一样的感觉。

当时的人们看到的是:一台没有程序的机器,在观察了几十个样本之后,开始自己做出正确的判断。它不是被编程的——它被训练了。这就是那种令人震惊的感觉的来源。不是因为机器算得多快,而是因为它展示了一种可能性:机器的行为可以不必由人预先写好。

这种震惊在今天仍然值得理解。因为这正是深度学习——乃至今天的大语言模型——在 2012 年之后让世界重新兴奋起来的同一个原因。


3.6 媒体狂热与罗森布拉特的乐观

Mark I Perceptron 的展示引发了大规模的媒体关注。《纽约时报》的报道只是冰山一角。报纸、杂志、广播都在讨论这台"会学习的机器"。

罗森布拉特本人也相当乐观。他公开预测,感知机最终会能够:

  • 识别图像和模式;
  • 理解语音;
  • 在不同情境之间进行泛化。

不过,当时的媒体报道把预期拉得比罗森布拉特本人的预测更高。《纽约时报》那篇文章里,美国海军预期这台机器将来可以"走路、说话、看见、写作、自我繁殖,甚至意识到自己的存在"——这些更夸张的说法来自军方和记者,而不是罗森布拉特的论文。

早在 1957 年,罗森布拉特就在一台 IBM 704 计算机上实现了软件版的感知机。1960 年 6 月 23 日,Mark I Perceptron 首次公开展示,并在演示中从不同角度识别字母。成功。紧接着,各种关于"电子大脑"和"会思考的机器"的话题席卷了公众想象。

当时的气氛很容易让人联想到 1956 年达特茅斯会议之后的乐观主义——只不过这次,乐观的对象从"规则可以制造智能"变成了"学习可以制造智能"。

这也是人工智能史上一条永不过时的教训:一个真正的突破出现之后,最难的事情不是让机器变得更好,而是区分"这次真的不一样"和"这次只是看起来不一样"。

感知机属于哪一种?在当时没人知道答案。


3.7 本章小实验:用眼睛做一个感知机

在不写代码之前,你可以先用自己的大脑来体验一下感知机的工作原理。

假设你在考虑要不要去看一场电影。你考虑三个因素:

  • 这部电影的评分高不高?(1 = 高,0 = 不高)
  • 今天天气好不好?(1 = 好,0 = 不好)
  • 有没有朋友一起?(1 = 有,0 = 没有)

你觉得评分最重要(给它一个大权重),有朋友一起其次(中等权重),天气最不重要(给它一个小权重甚至忽略)。

现在,试着给这三个因素分配你自己的权重,然后设置一个阈值。用这个规则去判断你最近看过的几部电影——是不是在评分高且有朋友一起的情况下,你更可能去看?

你刚刚做的,就是一个感知机在做的事。你选择权重,心算加权和,和阈值比较,做出决策。

唯一不同的是:你的权重是自己凭经验选的。感知机的权重是从数据中学来的。

这个差别,就是"编程"与"学习"之间的那条线。

在后面的实践章节中,我们会用代码复现这个过程,让机器自己学会"要不要去看电影"这个决策。


3.8 本章地图

text
问题:机器能不能从例子中学习?方法:感知机——一种可以在样本中调整权重、找到决策边界的简单学习算法。突破:第一次证明了机器可以不依赖预写规则,从数据中自己找到规律。局限:只能解决线性可分问题(这个问题将在下一章成为核心争议)。今天:现代神经网络的规模比感知机大了十亿倍,但"输入→加权→输出→根据错误调整"这个基本循环没有变。

3.9 本章结语:学习的种子

感知机没有实现它的乐观预言。

它不会走路,不会说话,不会意识到自己的存在。Mark I Perceptron 只是在一个玩具问题上找到了一条分界线。从"识别字母"到"理解语言",中间隔着一片当时的硬件和算法根本无法触及的荒漠。

但它种下了一粒种子。

这粒种子不是一台具体的机器,而是一个具体的问题:

如果机器能从数据中学习,那它最多能学到什么程度?

这个问题在 1960 年代被有力地追问过一次——不是用鲜花和掌声,而是用犀利的数学批评。下一章,我们会看到这粒种子如何在冬天的土壤里沉睡,又为什么在沉睡中仍然活着。

那个批评者名叫马文·明斯基。他写的书会成为神经网络历史上最著名的一颗子弹。

SECTION §02 · ENGAGE

Discussion

留言区 · GitHub-powered comments via Giscus