全书导航

大模型之路：从图灵、感知机到 ChatGPT · 卷 1

第 1 章：图灵的问题：机器会思考吗？

本章问题：机器能不能表现得像人在思考？

1.1 一个过于直接的问题

1950 年，艾伦·图灵提出了一个看起来简单、实际上很难回答的问题：

机器会思考吗？

这个问题麻烦在于，每个词都不安分。

什么是“机器”？

是一台会转动齿轮的机械装置？是一台执行程序的电子计算机？还是任何能够处理信息的系统？

什么是“思考”？

是做数学题？是理解语言？是拥有意识？是能解释自己的理由？还是只要表现得足够聪明就算？

如果我们一开始就纠缠这些定义，讨论很快会变成哲学泥潭。每个人都可以提出自己的定义，然后谁也说服不了谁。

图灵聪明的地方在于：他没有硬着头皮给“思考”下定义。

他换了一个问题。

不要问机器内心是否真的在思考。先问一个更可操作的问题：

如果我们只能通过文字和一个对象交流，而我们分不清对方是人还是机器，那么这台机器是否已经在某种意义上表现出了智能？

这就是后来被称为“图灵测试”的思想来源。

它的高明之处不在于彻底解决了“智能是什么”，而在于把一个抽象问题改造成了一个行为问题。

“思考”太难定义。

“表现得像在思考”则可以被观察。

这一步非常关键。因为人工智能后来几十年的历史，几乎都在这条缝隙里展开：机器不一定像人一样思考，但它可以越来越像人一样完成任务。

会下棋，算不算智能？

会翻译，算不算智能？

会写代码，算不算智能？

会和人连续对话，算不算智能？

每一代人工智能系统都在给这个问题提交新的答卷。ChatGPT 让大众震动，也是因为它把图灵的问题重新放回了每个人面前——而语言，恰恰是人类最容易把”智能”投射进去的地方。

1.2 图灵为什么选择“对话”

想象一个房间。

房间里有一个提问者。提问者看不到对方，只能通过文字交流。另一边可能是一个人，也可能是一台机器。提问者可以问任何问题：数学题、生活问题、诗歌、玩笑、逻辑推理，甚至故意设陷阱。

如果经过一段交流，提问者无法可靠判断对方究竟是人还是机器，那么机器就通过了某种意义上的测试。

为什么是文字？

这不是偶然。

如果测试里包含外貌、声音、表情、动作，那机器需要先解决一大堆物理问题：合成声音、模拟面部、控制身体、制造皮肤。这些当然也重要，但它们会干扰核心问题。

图灵关心的是：机器能不能在信息层面表现出智能。

文字把很多东西剥离掉了。它留下的是问题、回答、推理、误解、幽默、知识和上下文。

换句话说，文字是一条通向智能的窄门。

它足够窄，窄到可以让早期计算机理论进入讨论；它又足够宽，宽到几乎承载了人类最重要的认知能力。

我们用语言描述世界、提出问题、传递知识、表达计划和想象。

如果一台机器能在语言中表现出足够复杂的能力，人类很难不感到震动。

这也是为什么大语言模型会成为人工智能史上的特殊事件——它们没有先学会走路或倒咖啡，而是先学会了生成极其像人类语言的文本。图灵测试某种意义上是一个早期预言：机器智能最先打动普通人的方式，可能不是钢铁身体，而是一段文字对话。几十年后，ChatGPT 正是这样出现在一个输入框里，而不是以机器人的形象敲门。

1.3 “像人”不等于“是人”

图灵的问题也有一个天然争议：

如果机器只是表现得像人在思考，这够吗？

一个系统可能会给出非常像人的回答，但它内部的工作方式和人脑完全不同。它可能没有意识，没有感受，没有欲望，也没有人类意义上的理解。

这听起来像是在给机器智能泼冷水。

但换个角度看，人类判断他人智能时，本来也主要依赖行为。

你说出一句话，我无法直接看到你的意识。我只能根据你的表达、行动、反应和长期一致性，判断你是否理解了某件事。

对机器也是一样。

我们无法直接看到机器“内心”有没有理解，甚至“内心”这个词放在机器身上就已经很可疑。我们能观察的是行为：它能不能回答问题，能不能修正错误，能不能举一反三，能不能在复杂情境下做出合理判断。

图灵把问题从本质拉向表现，这让人工智能研究获得了一种工程化入口。

但是，这也埋下了一个长期争议：

如果一个系统表现得很聪明，但我们不知道它是否真的理解，那么我们应该如何看待它？

这不是古老问题。它就是今天的大模型问题。

当一个大语言模型解释一首诗时，它是在理解诗，还是在生成关于诗的高概率文本？

当它解一道数学题时，它是在推理，还是在模仿训练数据中见过的推理形式？

当它安慰一个伤心的人时，它是在共情，还是在生成符合人类期待的安慰话术？

这些问题没有简单答案。

但图灵给了我们一个起点：先认真观察机器的行为，再讨论我们愿意赋予这种行为什么意义。这是一种务实的态度——既不要求我们立刻承认机器有心灵，也不允许我们因为机器“只是机器”，就忽略它已经表现出的能力。

1.4 早期计算机：不是大脑，而是符号机器

要理解图灵为什么能提出这样的问题，我们还要回到计算机本身。

今天的电脑、手机和云服务器已经太普通了。我们很容易忘记，在二十世纪上半叶，“计算机”并不是一个理所当然的东西。

早期的计算机首先是为了计算。

战争、密码、弹道、科学计算、工程计算，这些任务需要大量重复、精确、快速的数字处理。机器在这里有天然优势：它不累，不分心，也不会因为无聊而抄错一列数字。

但是图灵看到的不是一台“高级算盘”。

他看到的是一种更一般的东西：一种可以根据规则操作符号的机器。

数字是一种符号。

文字也可以变成符号。

逻辑命题可以变成符号。

棋盘状态可以变成符号。

如果一切都能被表示成符号，而机器又能按照规则操作符号，那么机器处理的就不只是数字，而是信息。

这一步想象非常大胆。

因为一旦机器可以处理信息，它就不再只是计算工具，而有可能成为推理工具、语言工具、决策工具，甚至智能工具。

这也是后来符号主义人工智能的基础信念：

智能可以被理解为对符号的操作。

这条路线会在后面的章节中变得非常重要。专家系统、逻辑推理、搜索算法，都从这里长出来。

不过，图灵时代的机器距离今天的大模型还很远。

那时没有互联网规模的数据，没有 GPU，没有深度神经网络，也没有 Transformer。早期研究者面对的是非常有限的硬件，却拥有非常大胆的想象力。

这恰恰是人工智能史最迷人的地方：

想象总是先于条件出现。

人类先提出“机器能否思考”这个问题，然后才用几十年时间，一点点制造足够强大的机器来逼近它。

1.5 第一种误解：图灵测试不是终极标准

很多人听到图灵测试，会误以为它是判断机器是否拥有智能的终极标准。

这其实不太准确。

图灵测试更像是一个思想实验，一个把问题变得可讨论的入口。它有启发性，但不完美。

一个机器可能通过某种形式的对话测试，却仍然在真实世界任务中很脆弱。

它可能善于伪装，善于绕开问题，善于利用人类提问者的疏忽，却未必具备稳定可靠的理解能力。

反过来，一个机器也可能非常智能，却不擅长模仿人类说话。

比如一个科学计算系统可能能发现复杂规律，但它不会聊天。一个自动驾驶系统可能能处理真实道路，却不一定能写诗。一个蛋白质结构预测模型可能对生物学极其有用，但它不会在对话里表现得像人。

所以，“像人”不是智能的唯一形式。

图灵测试真正留下的遗产，不是一个万能考卷，而是一种转换问题的方式：

不要空谈智能的本质，先观察系统能做什么。

今天评估大模型，也应该如此。

我们不应该只问：它到底有没有意识？

我们还应该问：

它能不能可靠地解决某类问题？
它在哪些任务上表现稳定？
它在哪些情境下会胡说？
它能不能解释自己的推理？
它能不能调用工具验证答案？
它能不能在真实工作流中产生价值？

这些问题比一句“它是不是智能”更有用。

1.6 本章小实验：你如何判断”智能”？

在继续进入人工智能正式诞生之前，我们先做一个小实验。

找三段回答：

一段人类写的回答；
一段搜索引擎摘要；
一段大语言模型生成的回答。

不要看来源，只看文本。然后问自己：

哪一段最像人在回答？
哪一段最可靠？
哪一段最有解释力？
哪一段最可能在胡说？
你判断它“聪明”的依据是什么？

这个实验看似简单，但它会暴露一个事实：

我们判断智能时，往往混合了很多标准。

流畅性是一种标准。

正确性是一种标准。

推理过程是一种标准。

创造力是一种标准。

情境感是一种标准。

可靠性也是一种标准。

图灵测试抓住了其中一种：像不像人。

但真正的大模型时代，我们需要更多维度。

因为一个系统可能很像人，却不可靠；也可能不太像人，却极其有用。

1.7 本章地图

text

问题：机器会思考吗？方法：图灵把“思考”问题转化为可观察的语言行为问题。突破：让机器智能从哲学争论进入可测试、可工程化的讨论。局限：像人说话不等于真正理解，图灵测试也不是智能的终极标准。今天：ChatGPT 让图灵的问题重新进入大众生活，但我们需要用更丰富的标准评估大模型。

问题：机器会思考吗？方法：图灵把“思考”问题转化为可观察的语言行为问题。突破：让机器智能从哲学争论进入可测试、可工程化的讨论。局限：像人说话不等于真正理解，图灵测试也不是智能的终极标准。今天：ChatGPT 让图灵的问题重新进入大众生活，但我们需要用更丰富的标准评估大模型。

1.8 本章结语：一个问题打开的时代

图灵没有发明大模型。

他甚至没有见过今天意义上的人工智能系统。

但他提出的问题，像一颗种子，埋进了后来所有人工智能研究的土壤里。

机器能不能思考？

如果不能，它为什么能表现得越来越像在思考？

如果能，那这种思考和人类思考有什么不同？

这些问题不会在第一章得到最终答案。事实上，整本书都会围绕它们展开。

下一章，我们会来到 1956 年的夏天。

在那里，一群年轻而自信的研究者聚在达特茅斯学院。他们相信，只要给他们一些时间，他们就能让机器拥有学习、推理、抽象和创造的能力。

他们给这个野心起了一个名字：

人工智能。

那是一个新领域的诞生，也是一次巨大乐观主义的开始。

SECTION §02 · ENGAGE

Discussion

留言区 · GitHub-powered comments via Giscus