第 1 章:图灵的问题:机器会思考吗?
本章问题:机器能不能表现得像人在思考?
1.1 一个过于直接的问题
1950 年,艾伦·图灵提出了一个看起来简单、实际上很难回答的问题:
机器会思考吗?
这个问题麻烦在于,每个词都不安分。
什么是“机器”?
是一台会转动齿轮的机械装置?是一台执行程序的电子计算机?还是任何能够处理信息的系统?
什么是“思考”?
是做数学题?是理解语言?是拥有意识?是能解释自己的理由?还是只要表现得足够聪明就算?
如果我们一开始就纠缠这些定义,讨论很快会变成哲学泥潭。每个人都可以提出自己的定义,然后谁也说服不了谁。
图灵聪明的地方在于:他没有硬着头皮给“思考”下定义。
他换了一个问题。
不要问机器内心是否真的在思考。先问一个更可操作的问题:
如果我们只能通过文字和一个对象交流,而我们分不清对方是人还是机器,那么这台机器是否已经在某种意义上表现出了智能?
这就是后来被称为“图灵测试”的思想来源。
它的高明之处不在于彻底解决了“智能是什么”,而在于把一个抽象问题改造成了一个行为问题。
“思考”太难定义。
“表现得像在思考”则可以被观察。
这一步非常关键。因为人工智能后来几十年的历史,几乎都在这条缝隙里展开:机器不一定像人一样思考,但它可以越来越像人一样完成任务。
会下棋,算不算智能?
会翻译,算不算智能?
会写代码,算不算智能?
会和人连续对话,算不算智能?
每一代人工智能系统都在给这个问题提交新的答卷。ChatGPT 让大众震动,也是因为它把图灵的问题重新放回了每个人面前——而语言,恰恰是人类最容易把”智能”投射进去的地方。
1.2 图灵为什么选择“对话”
想象一个房间。
房间里有一个提问者。提问者看不到对方,只能通过文字交流。另一边可能是一个人,也可能是一台机器。提问者可以问任何问题:数学题、生活问题、诗歌、玩笑、逻辑推理,甚至故意设陷阱。
如果经过一段交流,提问者无法可靠判断对方究竟是人还是机器,那么机器就通过了某种意义上的测试。
为什么是文字?
这不是偶然。
如果测试里包含外貌、声音、表情、动作,那机器需要先解决一大堆物理问题:合成声音、模拟面部、控制身体、制造皮肤。这些当然也重要,但它们会干扰核心问题。
图灵关心的是:机器能不能在信息层面表现出智能。
文字把很多东西剥离掉了。它留下的是问题、回答、推理、误解、幽默、知识和上下文。
换句话说,文字是一条通向智能的窄门。
它足够窄,窄到可以让早期计算机理论进入讨论;它又足够宽,宽到几乎承载了人类最重要的认知能力。
我们用语言描述世界、提出问题、传递知识、表达计划和想象。
如果一台机器能在语言中表现出足够复杂的能力,人类很难不感到震动。
这也是为什么大语言模型会成为人工智能史上的特殊事件——它们没有先学会走路或倒咖啡,而是先学会了生成极其像人类语言的文本。图灵测试某种意义上是一个早期预言:机器智能最先打动普通人的方式,可能不是钢铁身体,而是一段文字对话。几十年后,ChatGPT 正是这样出现在一个输入框里,而不是以机器人的形象敲门。
1.3 “像人”不等于“是人”
图灵的问题也有一个天然争议:
如果机器只是表现得像人在思考,这够吗?
一个系统可能会给出非常像人的回答,但它内部的工作方式和人脑完全不同。它可能没有意识,没有感受,没有欲望,也没有人类意义上的理解。
这听起来像是在给机器智能泼冷水。
但换个角度看,人类判断他人智能时,本来也主要依赖行为。
你说出一句话,我无法直接看到你的意识。我只能根据你的表达、行动、反应和长期一致性,判断你是否理解了某件事。
对机器也是一样。
我们无法直接看到机器“内心”有没有理解,甚至“内心”这个词放在机器身上就已经很可疑。我们能观察的是行为:它能不能回答问题,能不能修正错误,能不能举一反三,能不能在复杂情境下做出合理判断。
图灵把问题从本质拉向表现,这让人工智能研究获得了一种工程化入口。
但是,这也埋下了一个长期争议:
如果一个系统表现得很聪明,但我们不知道它是否真的理解,那么我们应该如何看待它?
这不是古老问题。它就是今天的大模型问题。
当一个大语言模型解释一首诗时,它是在理解诗,还是在生成关于诗的高概率文本?
当它解一道数学题时,它是在推理,还是在模仿训练数据中见过的推理形式?
当它安慰一个伤心的人时,它是在共情,还是在生成符合人类期待的安慰话术?
这些问题没有简单答案。
但图灵给了我们一个起点:先认真观察机器的行为,再讨论我们愿意赋予这种行为什么意义。这是一种务实的态度——既不要求我们立刻承认机器有心灵,也不允许我们因为机器“只是机器”,就忽略它已经表现出的能力。
1.4 早期计算机:不是大脑,而是符号机器
要理解图灵为什么能提出这样的问题,我们还要回到计算机本身。
今天的电脑、手机和云服务器已经太普通了。我们很容易忘记,在二十世纪上半叶,“计算机”并不是一个理所当然的东西。
早期的计算机首先是为了计算。
战争、密码、弹道、科学计算、工程计算,这些任务需要大量重复、精确、快速的数字处理。机器在这里有天然优势:它不累,不分心,也不会因为无聊而抄错一列数字。
但是图灵看到的不是一台“高级算盘”。
他看到的是一种更一般的东西:一种可以根据规则操作符号的机器。
数字是一种符号。
文字也可以变成符号。
逻辑命题可以变成符号。
棋盘状态可以变成符号。
如果一切都能被表示成符号,而机器又能按照规则操作符号,那么机器处理的就不只是数字,而是信息。
这一步想象非常大胆。
因为一旦机器可以处理信息,它就不再只是计算工具,而有可能成为推理工具、语言工具、决策工具,甚至智能工具。
这也是后来符号主义人工智能的基础信念:
智能可以被理解为对符号的操作。
这条路线会在后面的章节中变得非常重要。专家系统、逻辑推理、搜索算法,都从这里长出来。
不过,图灵时代的机器距离今天的大模型还很远。
那时没有互联网规模的数据,没有 GPU,没有深度神经网络,也没有 Transformer。早期研究者面对的是非常有限的硬件,却拥有非常大胆的想象力。
这恰恰是人工智能史最迷人的地方:
想象总是先于条件出现。
人类先提出“机器能否思考”这个问题,然后才用几十年时间,一点点制造足够强大的机器来逼近它。
1.5 第一种误解:图灵测试不是终极标准
很多人听到图灵测试,会误以为它是判断机器是否拥有智能的终极标准。
这其实不太准确。
图灵测试更像是一个思想实验,一个把问题变得可讨论的入口。它有启发性,但不完美。
一个机器可能通过某种形式的对话测试,却仍然在真实世界任务中很脆弱。
它可能善于伪装,善于绕开问题,善于利用人类提问者的疏忽,却未必具备稳定可靠的理解能力。
反过来,一个机器也可能非常智能,却不擅长模仿人类说话。
比如一个科学计算系统可能能发现复杂规律,但它不会聊天。一个自动驾驶系统可能能处理真实道路,却不一定能写诗。一个蛋白质结构预测模型可能对生物学极其有用,但它不会在对话里表现得像人。
所以,“像人”不是智能的唯一形式。
图灵测试真正留下的遗产,不是一个万能考卷,而是一种转换问题的方式:
不要空谈智能的本质,先观察系统能做什么。
今天评估大模型,也应该如此。
我们不应该只问:它到底有没有意识?
我们还应该问:
- 它能不能可靠地解决某类问题?
- 它在哪些任务上表现稳定?
- 它在哪些情境下会胡说?
- 它能不能解释自己的推理?
- 它能不能调用工具验证答案?
- 它能不能在真实工作流中产生价值?
这些问题比一句“它是不是智能”更有用。
1.6 本章小实验:你如何判断”智能”?
在继续进入人工智能正式诞生之前,我们先做一个小实验。
找三段回答:
- 一段人类写的回答;
- 一段搜索引擎摘要;
- 一段大语言模型生成的回答。
不要看来源,只看文本。然后问自己:
- 哪一段最像人在回答?
- 哪一段最可靠?
- 哪一段最有解释力?
- 哪一段最可能在胡说?
- 你判断它“聪明”的依据是什么?
这个实验看似简单,但它会暴露一个事实:
我们判断智能时,往往混合了很多标准。
流畅性是一种标准。
正确性是一种标准。
推理过程是一种标准。
创造力是一种标准。
情境感是一种标准。
可靠性也是一种标准。
图灵测试抓住了其中一种:像不像人。
但真正的大模型时代,我们需要更多维度。
因为一个系统可能很像人,却不可靠;也可能不太像人,却极其有用。
1.7 本章地图
1.8 本章结语:一个问题打开的时代
图灵没有发明大模型。
他甚至没有见过今天意义上的人工智能系统。
但他提出的问题,像一颗种子,埋进了后来所有人工智能研究的土壤里。
机器能不能思考?
如果不能,它为什么能表现得越来越像在思考?
如果能,那这种思考和人类思考有什么不同?
这些问题不会在第一章得到最终答案。事实上,整本书都会围绕它们展开。
下一章,我们会来到 1956 年的夏天。
在那里,一群年轻而自信的研究者聚在达特茅斯学院。他们相信,只要给他们一些时间,他们就能让机器拥有学习、推理、抽象和创造的能力。
他们给这个野心起了一个名字:
人工智能。
那是一个新领域的诞生,也是一次巨大乐观主义的开始。
Discussion
留言区 · GitHub-powered comments via Giscus