第 12 章:第二次寒冬与暗中积累
本章问题:为什么有些技术在低谷中仍然继续生长?
12.1 等待戈多
1990 年代的人工智能是一个奇怪的混合体。
我们在第 7 章已经看到了两次寒冬的降临——LISP 机器崩溃、专家系统泡沫破裂、日本第五代计算机收尾。这里不重复那段历史。
这里要看的是硬币的另一面。
搜索引擎在积累数十亿的网页爬虫数据。电子零售商在积累数千万条交易记录。社交网络还没有诞生,但邮件、论坛和早期博客已经产生了从未有过的海量文本。数码相机变成了消费产品,每一台都在生产千万张照片。科学仪器——从基因组测序到天文望远镜——每天都在倾泻比昨天更多的数据。
硬件在指数地变强。摩尔定律不是预言——它在 1990 年代是最顽固的现实。每两年,你用同样的预算能买到的算力翻一倍。
而且,那些坚持神经网络方向的少数研究者——他们在边缘沉默地工作着。没有头条,没有大笔资助,没有投资人敲门。但他们把线继续往下织。
这就是第二次寒冬的真相:不是一切死了。是地表什么都没有,而地下在生长。
12.2 数据:沉默的雪崩
1990 年代到 2000 年代初,人类产生的数字信息发生了质变。
World Wide Web 在 1991 年公开。到 1990 年代末,网络上已经有几百万个网站。每一个网站都包含文本——文字、标题、标签、链接。这些文本不是为 AI 研究所准备的——它们是人们在日常生活中写下的东西:商品描述、新闻文章、技术手册、个人主页、论坛帖子。
但大规模、粗略标注或隐式标注的数据,正是统计学习最需要的原料。
搜索引擎的点击日志隐含了"哪些词和哪些页面相关"的信号。用户在电商网站上的浏览和购买行为隐含了"这个人的兴趣偏好"的信号。邮件系统中的"这不是垃圾邮件/这是垃圾邮件"按钮是用最自然的方式收集高精度标签的机器学习基础设施——用户免费在帮系统标注。
数据没有自己走进实验室。但研究者开始意识到:训练模型不需要专门、昂贵的人工标注——日常运作中的数字系统本身就在产生训练信号。
这种意识的转变极其重要。在此之前,"训练数据"意味着实验室里研究生坐在屏幕前一条一条地标注。在此之后,它意味着"将互联网和人类数字活动的巨大侧流接入学习系统"。
这就把"谁有大模型"的逻辑提前埋下了——谁掌握了大型数字服务,谁就掌握了源源不断的训练数据。
12.3 算力:指数上爬的隐形成本
和数据的雪崩同时发生的,是计算成本的持续下降。
CPU 的速度按照摩尔定律在爬升。但这并不是最大的变化。更重要的是,到了 2000 年代中期,图形处理器——GPU——开始从专门的游戏硬件变成可以被科学计算利用的并行计算设备。NVIDIA 在 2006 年发布的 CUDA 架构是这场转变的关键节点。
GPU 的原始设计目标不是做 AI——它的任务是渲染游戏中的 3D 图形。图形渲染的本质是大量独立且类似的并行计算——屏幕上几百万个像素的颜色需要同时被确定。这个设计天然适合"大量简单计算同时做"的任务。
巧合的是,训练神经网络——矩阵乘法、卷积运算——也天然适合并行化。你有一个权值矩阵,有几千个样本,你需要把每个样本和权值矩阵相乘——这个乘法可以被同时处理,而正是 GPU 擅长的。
在这段时期,少数先知先觉的研究者已经开始试验在 GPU 上训练神经网络。但绝大多数人还没有意识到 GPU 和 AI 训练之间会有一场完美的联姻。算力不是大新闻。它像地下水位——持续地、不引人注目地、指数级地升高。
12.4 算法:在黑暗中继续搜
在制度层面,主流 AI 不关心神经网络。但少数人从未放弃。
杨立昆在贝尔实验室继续深耕卷积神经网络——虽然手写邮政编码在当时看起来只是一个"小众应用",但他的 LeNet 架构为后来所有的 CNN 铺下了地基。
约书亚·本吉奥在蒙特利尔大学开辟了一条后来被称为"深度学习三大先驱"之一的路线——专注序列模型、注意力机制的早期探索和表示学习的基础理论。
尤尔根·施米德胡贝在德国和瑞士长期研究递归神经网络,发明了后来被广泛采用的长短时记忆网络(LSTM)——这个架构在 2010 年代成为语音识别、机器翻译和语言建模的核心工具,比 Transformer 更早统治序列生成任务。
杰弗里·辛顿在多伦多大学带着一小群博士生,年复一年地研究受限玻尔兹曼机、深度信念网络——当时大多数同行认为这些研究"在理论上有趣,但在实践上没有意义"。
这些人在各自的小角落里工作。他们的论文明明摆在图书馆里,但主流 AI 不看。当他们在学术会议上展示"深度神经网络"的实验时,很多审稿人会给出同一个评价:这不可能是真的。一定是过拟合。或者是用了一些不可复现的技巧。
这种被冷落的程度很难被后来者完全理解。在 2000 年代初,"我是一个神经网络研究者"这句话在求职市场上几乎等于"我是一个研究死路方向的人"。
但这些人坚持着。不是因为资助丰厚,不是因为名声上升——而是因为他们相信,神经网络这个方向还没有被充分探索完。
12.5 为什么是"暗中"?
这里值得停下来问一个结构性问题:为什么少数研究者能在方向失宠的时候仍然继续推进?为什么他们没有被环境压死?
有几个不太明显的原因。
第一,计算机价格在下降。1990 年代,一个研究生可以在自己的工作站上跑出有趣的小规模实验——不需要超级计算机,不需要数据中心。进入门槛在持续降低。这意味着少数研究者可以独立验证自己的想法,不用等待拨款委员会点头。
第二,机器学习社区的"局域网"效应。神经网络虽是冷门方向,但它的研究者是高度连接的网络——辛顿、杨立昆和本吉奥保持密切联系,在小型工作坊里碰面,互相审稿、互相鼓励。这种小团体的密度,在主流方向中反而可能是缺乏的。
第三,统计方法和神经网络在数学上并非截然对立。随着时间推移,一些统计学家和优化研究者开始用严格的数学语言重新审视神经网络的训练过程。反向传播是可以被证明收敛的——不是靠直觉,而是靠非凸优化理论的进展。当理论的脚手架从底层搭上来时,原来被看作"手工作坊"的神经网络实验开始获得数学合法性。
第四——也许最重要——这些人不是在坚持"同一个失败的想法";他们是在持续地改进想法。 激活函数从 sigmoid 变成了 ReLU(解决梯度消失);初始化从随机变成了 Xavier/He 方法(让深层网络从起点就稳定);优化器从纯粹 SGD 变成了带动量、自适应学习率的各种变体。每一次改进都不是革命,但累积二十年之后,原本"无法训练"的深层网络的困难,被一个接一个地拆掉了。
12.6 黎明前的黑暗森林
2000 年代末,在深度学习爆发前夜,情况是这样的:
数据在疯狂积累——互联网、电商、社交媒体、数码相片——人类产生的训练资源比以往任何时代都多。硬件在指数降价——同样的训练在今天花 1000 元,十年前可能要花 10000 元。算法在静默迭代——神经网络的一个个局部瓶颈被逐个修复。GPU 开始被意识到是天然的训练加速器——只是还没有被大规模验证。
而主流的计算机视觉和语音识别,用的仍然是 SIFT、HOG、MFCC 和高斯混合模型——这些方法经过了十年的打磨,在小数据集上表现扎实,但面对大规模真实数据时天花板已经隐约可见。
需要一个"引爆点"。一件能把所有这些积累在一起的燃料同时点燃的事件。
它叫 ImageNet。
12.7 本章小实验:读一篇"过时"的论文
找一篇 2010 年之前的机器视觉或语音识别论文。可以是 SIFT、HOG 或 MFCC 相关的。
读的时候,注意三件事:
- 这篇论文的"特征"是手工设计的还是自动学习的?如果是手工的,它是根据什么原理设计的?什么样的人能设计出这种特征——他需要有什么样的领域知识?
- 它有没有提到"模型有 X 层"——或者根本没有层的概念,就是两个步骤:提取特征→分类器?
- 如果这篇论文在训练时用了 1000 张图片(在当年这是"大"数据集),今天我们用 100 万张图片来做同样的问题,这篇论文的哪些方法会自动受益(比如分类器),哪些方法不会受益(比如手工特征的设计本身)?
第三个问题是最有意思的。特征工程和规模之间的关系不是线性的——更多的数据会让好的特征分类器更强,但不会自动帮你设计出更好的特征。这就是为什么数据量的剧增本身不足以引爆深度学习——还需要"自动学习特征"这一步。
12.8 本章地图
12.9 本章结语:春天来之前的地基
AI 寒冬的故事经常被讲成"黑暗时期突然冒出一道光"。真实的画面是:一群人在不同的地下工事里各自往下挖,互相不能直接看见,但都在往下深入。当他们在不同的点上挖穿了最后一层土,他们发现互相在同一个巨大的空间里。
数据积累、算力积累和算法积累,这三条线在 1990 年代和 2000 年代独立地发展。任何一条线单独都不足以改变 AI 的格局——但年代到了 2000 年代末,这三条线开始交叉。
下一章,我们看深度学习的两个齿轮——GPU 和大数据——如何系统地啮合在一起。这不是一个突然的发明——它是一套部署了二十年的基础设施终于遇到了它一直在等待的应用。
Discussion
留言区 · GitHub-powered comments via Giscus