全书导航
大模型之路:从图灵、感知机到 ChatGPT · 卷 1

第 1 章:图灵的问题:机器会思考吗?

本章问题:机器能不能表现得像人在思考?


1.1 一个过于直接的问题

1950 年,艾伦·图灵提出了一个看起来简单、实际上很难回答的问题:

机器会思考吗?

这个问题麻烦在于,每个词都不安分。

什么是“机器”?

是一台会转动齿轮的机械装置?是一台执行程序的电子计算机?还是任何能够处理信息的系统?

什么是“思考”?

是做数学题?是理解语言?是拥有意识?是能解释自己的理由?还是只要表现得足够聪明就算?

如果我们一开始就纠缠这些定义,讨论很快会变成哲学泥潭。每个人都可以提出自己的定义,然后谁也说服不了谁。

图灵聪明的地方在于:他没有硬着头皮给“思考”下定义。

他换了一个问题。

不要问机器内心是否真的在思考。先问一个更可操作的问题:

如果我们只能通过文字和一个对象交流,而我们分不清对方是人还是机器,那么这台机器是否已经在某种意义上表现出了智能?

这就是后来被称为“图灵测试”的思想来源。

它的高明之处不在于彻底解决了“智能是什么”,而在于把一个抽象问题改造成了一个行为问题。

“思考”太难定义。

“表现得像在思考”则可以被观察。

这一步非常关键。因为人工智能后来几十年的历史,几乎都在这条缝隙里展开:机器不一定像人一样思考,但它可以越来越像人一样完成任务。

会下棋,算不算智能?

会翻译,算不算智能?

会写代码,算不算智能?

会和人连续对话,算不算智能?

每一代人工智能系统都在给这个问题提交新的答卷。ChatGPT 让大众震动,也是因为它把图灵的问题重新放回了每个人面前——而语言,恰恰是人类最容易把”智能”投射进去的地方。


1.2 图灵为什么选择“对话”

想象一个房间。

房间里有一个提问者。提问者看不到对方,只能通过文字交流。另一边可能是一个人,也可能是一台机器。提问者可以问任何问题:数学题、生活问题、诗歌、玩笑、逻辑推理,甚至故意设陷阱。

如果经过一段交流,提问者无法可靠判断对方究竟是人还是机器,那么机器就通过了某种意义上的测试。

为什么是文字?

这不是偶然。

如果测试里包含外貌、声音、表情、动作,那机器需要先解决一大堆物理问题:合成声音、模拟面部、控制身体、制造皮肤。这些当然也重要,但它们会干扰核心问题。

图灵关心的是:机器能不能在信息层面表现出智能。

文字把很多东西剥离掉了。它留下的是问题、回答、推理、误解、幽默、知识和上下文。

换句话说,文字是一条通向智能的窄门。

它足够窄,窄到可以让早期计算机理论进入讨论;它又足够宽,宽到几乎承载了人类最重要的认知能力。

我们用语言描述世界、提出问题、传递知识、表达计划和想象。

如果一台机器能在语言中表现出足够复杂的能力,人类很难不感到震动。

这也是为什么大语言模型会成为人工智能史上的特殊事件——它们没有先学会走路或倒咖啡,而是先学会了生成极其像人类语言的文本。图灵测试某种意义上是一个早期预言:机器智能最先打动普通人的方式,可能不是钢铁身体,而是一段文字对话。几十年后,ChatGPT 正是这样出现在一个输入框里,而不是以机器人的形象敲门。


1.3 “像人”不等于“是人”

图灵的问题也有一个天然争议:

如果机器只是表现得像人在思考,这够吗?

一个系统可能会给出非常像人的回答,但它内部的工作方式和人脑完全不同。它可能没有意识,没有感受,没有欲望,也没有人类意义上的理解。

这听起来像是在给机器智能泼冷水。

但换个角度看,人类判断他人智能时,本来也主要依赖行为。

你说出一句话,我无法直接看到你的意识。我只能根据你的表达、行动、反应和长期一致性,判断你是否理解了某件事。

对机器也是一样。

我们无法直接看到机器“内心”有没有理解,甚至“内心”这个词放在机器身上就已经很可疑。我们能观察的是行为:它能不能回答问题,能不能修正错误,能不能举一反三,能不能在复杂情境下做出合理判断。

图灵把问题从本质拉向表现,这让人工智能研究获得了一种工程化入口。

但是,这也埋下了一个长期争议:

如果一个系统表现得很聪明,但我们不知道它是否真的理解,那么我们应该如何看待它?

这不是古老问题。它就是今天的大模型问题。

当一个大语言模型解释一首诗时,它是在理解诗,还是在生成关于诗的高概率文本?

当它解一道数学题时,它是在推理,还是在模仿训练数据中见过的推理形式?

当它安慰一个伤心的人时,它是在共情,还是在生成符合人类期待的安慰话术?

这些问题没有简单答案。

但图灵给了我们一个起点:先认真观察机器的行为,再讨论我们愿意赋予这种行为什么意义。这是一种务实的态度——既不要求我们立刻承认机器有心灵,也不允许我们因为机器“只是机器”,就忽略它已经表现出的能力。


1.4 早期计算机:不是大脑,而是符号机器

要理解图灵为什么能提出这样的问题,我们还要回到计算机本身。

今天的电脑、手机和云服务器已经太普通了。我们很容易忘记,在二十世纪上半叶,“计算机”并不是一个理所当然的东西。

早期的计算机首先是为了计算。

战争、密码、弹道、科学计算、工程计算,这些任务需要大量重复、精确、快速的数字处理。机器在这里有天然优势:它不累,不分心,也不会因为无聊而抄错一列数字。

但是图灵看到的不是一台“高级算盘”。

他看到的是一种更一般的东西:一种可以根据规则操作符号的机器。

数字是一种符号。

文字也可以变成符号。

逻辑命题可以变成符号。

棋盘状态可以变成符号。

如果一切都能被表示成符号,而机器又能按照规则操作符号,那么机器处理的就不只是数字,而是信息。

这一步想象非常大胆。

因为一旦机器可以处理信息,它就不再只是计算工具,而有可能成为推理工具、语言工具、决策工具,甚至智能工具。

这也是后来符号主义人工智能的基础信念:

智能可以被理解为对符号的操作。

这条路线会在后面的章节中变得非常重要。专家系统、逻辑推理、搜索算法,都从这里长出来。

不过,图灵时代的机器距离今天的大模型还很远。

那时没有互联网规模的数据,没有 GPU,没有深度神经网络,也没有 Transformer。早期研究者面对的是非常有限的硬件,却拥有非常大胆的想象力。

这恰恰是人工智能史最迷人的地方:

想象总是先于条件出现。

人类先提出“机器能否思考”这个问题,然后才用几十年时间,一点点制造足够强大的机器来逼近它。


1.5 第一种误解:图灵测试不是终极标准

很多人听到图灵测试,会误以为它是判断机器是否拥有智能的终极标准。

这其实不太准确。

图灵测试更像是一个思想实验,一个把问题变得可讨论的入口。它有启发性,但不完美。

一个机器可能通过某种形式的对话测试,却仍然在真实世界任务中很脆弱。

它可能善于伪装,善于绕开问题,善于利用人类提问者的疏忽,却未必具备稳定可靠的理解能力。

反过来,一个机器也可能非常智能,却不擅长模仿人类说话。

比如一个科学计算系统可能能发现复杂规律,但它不会聊天。一个自动驾驶系统可能能处理真实道路,却不一定能写诗。一个蛋白质结构预测模型可能对生物学极其有用,但它不会在对话里表现得像人。

所以,“像人”不是智能的唯一形式。

图灵测试真正留下的遗产,不是一个万能考卷,而是一种转换问题的方式:

不要空谈智能的本质,先观察系统能做什么。

今天评估大模型,也应该如此。

我们不应该只问:它到底有没有意识?

我们还应该问:

  • 它能不能可靠地解决某类问题?
  • 它在哪些任务上表现稳定?
  • 它在哪些情境下会胡说?
  • 它能不能解释自己的推理?
  • 它能不能调用工具验证答案?
  • 它能不能在真实工作流中产生价值?

这些问题比一句“它是不是智能”更有用。


1.6 本章小实验:你如何判断”智能”?

在继续进入人工智能正式诞生之前,我们先做一个小实验。

找三段回答:

  1. 一段人类写的回答;
  2. 一段搜索引擎摘要;
  3. 一段大语言模型生成的回答。

不要看来源,只看文本。然后问自己:

  • 哪一段最像人在回答?
  • 哪一段最可靠?
  • 哪一段最有解释力?
  • 哪一段最可能在胡说?
  • 你判断它“聪明”的依据是什么?

这个实验看似简单,但它会暴露一个事实:

我们判断智能时,往往混合了很多标准。

流畅性是一种标准。

正确性是一种标准。

推理过程是一种标准。

创造力是一种标准。

情境感是一种标准。

可靠性也是一种标准。

图灵测试抓住了其中一种:像不像人。

但真正的大模型时代,我们需要更多维度。

因为一个系统可能很像人,却不可靠;也可能不太像人,却极其有用。


1.7 本章地图

text
问题:机器会思考吗?方法:图灵把“思考”问题转化为可观察的语言行为问题。突破:让机器智能从哲学争论进入可测试、可工程化的讨论。局限:像人说话不等于真正理解,图灵测试也不是智能的终极标准。今天:ChatGPT 让图灵的问题重新进入大众生活,但我们需要用更丰富的标准评估大模型。

1.8 本章结语:一个问题打开的时代

图灵没有发明大模型。

他甚至没有见过今天意义上的人工智能系统。

但他提出的问题,像一颗种子,埋进了后来所有人工智能研究的土壤里。

机器能不能思考?

如果不能,它为什么能表现得越来越像在思考?

如果能,那这种思考和人类思考有什么不同?

这些问题不会在第一章得到最终答案。事实上,整本书都会围绕它们展开。

下一章,我们会来到 1956 年的夏天。

在那里,一群年轻而自信的研究者聚在达特茅斯学院。他们相信,只要给他们一些时间,他们就能让机器拥有学习、推理、抽象和创造的能力。

他们给这个野心起了一个名字:

人工智能。

那是一个新领域的诞生,也是一次巨大乐观主义的开始。

SECTION §02 · ENGAGE

Discussion

留言区 · GitHub-powered comments via Giscus