大模型之路：从图灵、感知机到 ChatGPT

一本写给普通聪明人的大模型入门书：从人工智能史出发，穿过神经网络、深度学习、Transformer 和 ChatGPT，最后带读者亲手跑通一个属于自己的小型语言模型。

本书由 mcell 与大语言模型（AI）协作撰写。内容经过人工审校与编辑，但不保证完全准确。阅读时请保持独立思考。

核心承诺：用历史建立坐标，用直觉穿透概念，用代码抵达真实。

关于本书

这是一本写给普通聪明人的大模型入门书。它不假设你懂机器学习，不假设你写过 Python，也不假设你读过任何 AI 论文。

但它有一个野心：带你走完从图灵到 ChatGPT 的完整旅程。

大多数人对大模型的理解停留在几个碎片上——ChatGPT 很厉害、Transformer 是核心、大模型会幻觉——这些判断都对，但不够。真正理解大模型，需要回答一条更长的问题链：人类为什么会相信机器可以拥有智能？神经网络为什么长期不被看好，又为什么复活？Transformer 为什么成为大模型时代的发动机？ChatGPT 为什么不是简单的 GPT-3 套壳？

这本书把这些问题连接成一条完整的认知路径。

怎么读

全书分四卷，可以按顺序通读，也可以跳到感兴趣的部分：

卷一（1940s—1980s）：历史。图灵测试、达特茅斯会议、感知机、符号主义、AI 寒冬——大模型的"史前史"。
卷二（1980s—2010s）：积累。统计学习、特征工程、GPU 与大数据、AlexNet——深度学习爆发的三十年铺垫。
卷三（基础机制—2020s）：发动机。反向传播、卷积网络、Attention、Transformer、BERT/GPT、Scaling Law——大模型的核心技术。
卷四（2022—至今）：实战。ChatGPT 破圈、指令微调、RLHF、从零训练小模型、LoRA、RAG、Agent——把大模型用起来。

每章先说直觉，再讲技术。有代码，但代码之前一定先有故事。