全书导航
SECTION §02 · ENGAGE
Discussion
留言区 · GitHub-powered comments via Giscus
小书 · BOOK
大模型之路:从图灵、感知机到 ChatGPT
一本写给普通聪明人的大模型入门书:从人工智能史出发,穿过神经网络、深度学习、Transformer 和 ChatGPT,最后带读者亲手跑通一个属于自己的小型语言模型。
本书由 mcell 与大语言模型(AI)协作撰写。内容经过人工审校与编辑,但不保证完全准确。阅读时请保持独立思考。
核心承诺:用历史建立坐标,用直觉穿透概念,用代码抵达真实。
关于本书
这是一本写给普通聪明人的大模型入门书。它不假设你懂机器学习,不假设你写过 Python,也不假设你读过任何 AI 论文。
但它有一个野心:带你走完从图灵到 ChatGPT 的完整旅程。
大多数人对大模型的理解停留在几个碎片上——ChatGPT 很厉害、Transformer 是核心、大模型会幻觉——这些判断都对,但不够。真正理解大模型,需要回答一条更长的问题链:人类为什么会相信机器可以拥有智能?神经网络为什么长期不被看好,又为什么复活?Transformer 为什么成为大模型时代的发动机?ChatGPT 为什么不是简单的 GPT-3 套壳?
这本书把这些问题连接成一条完整的认知路径。
怎么读
全书分四卷,可以按顺序通读,也可以跳到感兴趣的部分:
- 卷一(1940s—1980s):历史。图灵测试、达特茅斯会议、感知机、符号主义、AI 寒冬——大模型的"史前史"。
- 卷二(1980s—2010s):积累。统计学习、特征工程、GPU 与大数据、AlexNet——深度学习爆发的三十年铺垫。
- 卷三(基础机制—2020s):发动机。反向传播、卷积网络、Attention、Transformer、BERT/GPT、Scaling Law——大模型的核心技术。
- 卷四(2022—至今):实战。ChatGPT 破圈、指令微调、RLHF、从零训练小模型、LoRA、RAG、Agent——把大模型用起来。
每章先说直觉,再讲技术。有代码,但代码之前一定先有故事。