《智能时代》逐章解读:这本 2004 年的著作预言了现代 AI 的半壁江山
2004 年,一本探讨大脑的著作指出:智能的核心本质在于预测。二十二年后的今天,人工智能领域的主流范式几乎完全建立在“预测下一个 Token”的训练基础之上。这本著作值得我们重新研读。
杰夫·霍金斯(Jeff Hawkins)与桑德拉·布莱克斯利(Sandra Blakeslee)合著的《智能时代》(On Intelligence)是那种罕见的技术书籍——其核心主张在经历了时间的洗礼后,以一种极其“微妙”的方式显现了它的正确性。书中提出的框架准确地描述了大脑的运作方式,但在如何通过工程手段实现机器智能方面,它几乎肯定走错了路。即便如此,它依然是我所知道的、解释为什么你的大语言模型(LLM)会如此“自信地一本正经胡说八道”最清晰的思想模型。
以下是为你准备的逐章总结。这份总结是为 2026 年奋战在 AI 开发一线的工程师撰写的,而非神经科学研讨会。我将克制住反驳书中每一项主张的冲动,只为你呈现其核心骨架。同时,作为一名在职工程师,我会在各章末尾附上注释,探讨这些观点对你下周要构建的功能有何启示。
序言:Palm Pilot 创始人寻找大脑奥秘
序言带有自传色彩,且至关重要。霍金斯开篇便宣称,有两大激情贯穿了他的一生:移动计算和大脑研究。
前者让他名利双收。他于 1992 年 1 月创立了 Palm Computing,1998 年又与唐娜·杜宾斯基(Donna Dubinsky)和爱德·科里根(Ed Colligan)共同创立了 Handspring。他是 PalmPilot、Visor 和 Treo 的架构师——这些设备可以说奠定了现代智能手机的雏形。而第二个激情才是他真正的执念,这本书之所以存在,是因为他从未放弃过对大脑的探索。
霍金斯讲述的成名史非同寻常。1979 年 6 月,他从康奈尔大学获得电气工程学士学位。青少年时期,他曾列出人生想要解决的四个“基本问题”,最后一个也是最大的一个,就是智能是如何工作的。他去当地图书馆寻找关于大脑的经典著作,却惊讶地发现根本没有这样的书——因为当时没由于人真正知道大脑是如何工作的。
毕业三个月后,1979 年 9 月号的《科学美国人》(Scientific American)面世了:这是一期关于大脑的专题。DNA 双螺旋结构的发现者之一弗朗西斯·克里克(Francis Crick)贡献了一篇题为《思考大脑》的论文。克里克的抱怨切中了要害:神经科学积累了堆积如山的神经元和化学数据,但缺乏他所谓的“广泛的思想框架”,无法告诉人们这些数据究竟意味着什么。霍金斯读完后,带着一种只有 22 岁年轻人自有的那种笃定感,决定将寻找这个框架作为毕生的事业。
然而,执行过程绕了弯路。他先是在波特兰的英特尔公司担任软件工程师,随后撰写了一份提案,主张英特尔应该资助大脑研究,因为理解大脑皮质最终将彻底改变微处理器的设计。英特尔拒绝了。他转到英特尔波士顿办 公室,向麻省理工学院(MIT)人工智能实验室提交了同样的方案——他能否与他们一起研究“真实的大脑”?MIT 也拒绝了。当时的人工智能项目明确导向超越生物智能,而非理解它,霍金斯的“自下而上”框架与实验室负责人的理念格格不入。
1986 年,他进入加州大学伯克利分校的生物物理学项目,计划将开发新皮质理论作为博士论文。在修读了大约两年的课程后,他的提案被否决了:没有教授在他所追求的那种通用层面上研究新皮质理论,也没有人愿意指导一个跨越如此多子学科的项目。他没有拿学位就离开了,回到工业界,加入 GRiD Systems 担任研究副总裁,并于 1989 年设计了 GRiDPad——最早的平板电脑之一,也是他在 Palm 开发设备的直系祖先。从此,他通过 Palm 和 Handspring 积累了巨大的财富,足以资助他想建立的任何机构。
于是,2002 年,他在门洛帕克建立了自己的研究机构:红木神经科学研究所(Redwood Neuroscience Institute)。这是一个致力于解决单一问题的非营利组织:新皮质究竟在做什么? 当时没有任何大学科系是为此而设的。《智能时代》在两年后出版,作为该研究所的宣言。2005 年 3 月,他与杜宾斯基和迪利普·乔治(Dileep George)创立了营利性后续公司 Numenta,旨在将该理论转化为软件。
序言的情感核心,也是你不应错过的部分是:这本书是当一个被英特尔、MIT 和伯克利教授委员会多次拒绝的人,在变得足够富有后,亲自出资寻找答案的产物。一旦你理解了这一点,后续章节中的编辑选择便一目了然:对经典 AI 的不耐烦、对单一算法驱动整个皮质的信念、在实验证据完备前发布可证伪理论的勇气。从某种意义上说,这本书是霍金斯自 22 岁起就试图书写的辩护词。
第一章:人工智能
本章的前半部分是霍金斯自传的第二乐章,因其细节极其具体而占有一席之地。他在英特尔工作时负责教客户如何设计微处理器系统,期间他写信给董事长戈登·摩尔(Gordon Moore),提议英特尔资助大脑研究。书中用一段精辟的文字概括了这封信:“亲爱的摩尔博士,我建议我们成立一个致力于理解大脑工作原理的研究小组。可以先从一个人——也就是我——开始。我相信我们能搞清楚。这在未来会是一门大生意。”摩尔没有答应,但他把信转给了英特尔首席科学家、第一款微处理器的设计者泰德·霍夫(Ted Hoff)。霍金斯飞往加州亲自推介,事后才发现霍夫在早期的神经网络理论方面也有资深背景——这正是最不适合听取“神经科学即将变得可解”论点的受众。霍夫告诉他,大脑在可预见的未来无法被理解,因此对英特尔来说没有商业意义。二十五年后,霍金斯在书中承认霍夫是对的:“在商业中,时机就是一切。” 之后便是序言中提到的 1981 年 MIT 的拒绝,接着是在 GRiD Systems 的蛰伏,最后是伯克利。
本章的后半部分需要仔细研读。它对经典 AI 的思想史做了精简的回顾,即使在今天看来依然非常深刻。
霍金斯将该领域的核心教条——“大脑只是另一种计算机”——追溯到艾伦·图灵(Alan Turing)对通用计算的证明。一旦图灵证明了所有数字计算机在逻辑上都是等价的(无论介质如何),那么推导出“大脑也是等价的,只要你在正确的抽象层面上描述它”似乎就顺理成章了。
这种世界观由两大支柱支撑。一是沃伦·麦卡洛克(Warren McCulloch)和沃尔特·皮茨(Walter Pitts)1943 年的论文,证明了生物神经元原则上可以实现逻辑门(与、或、非)。二是 20 世纪中叶占统治地位的心理学流派——行为主义,认为大脑内部是一个不可逾越的黑箱,唯一值得研究的是生物体的输入输出行为。二战后实用数字计算机出现时,该领域对其前提充满信心,以至于将翻译视为破译密码,将视觉视为几何问题,将通用智能视为几年内就能解决的任务。
接着,本章走过了那些失败的残骸,指名道姓:
- Eliza:通过改写用户输入来模仿精神分析师。例如,用户说“我男朋友不再跟我说话了”,它会回复“多跟我说说你男朋友”或“你为什么觉得你男朋友不再跟你说话了?”Eliza 在图灵测试中最接近欺骗人类,霍金斯指出了其中的讽刺:最擅长图灵挑战的 AI 程序,居然是一个被设计成玩笑的、刻意为之的简单小把戏。
- 积木世界 (Blocks World):可以自信地回答“大红方块上面是否有绿色金字塔?”,但除了模拟房间之外,无法泛化到任何地方。
- 定理证明程序:只能重新发现已知的定理。
- 专家系统:20 世纪 80 年代的巨大希望,结果证明只是脆弱的事实数据库,在狭窄领域之外表现平平。
- 深蓝 (Deep Blue):1997 年击败了加里·卡斯帕罗夫。霍金斯直言不讳:“深蓝的胜利并不是因为它比人类更聪明,而是因为它比人类快几百万倍。”深蓝对棋盘局势没有直觉,没有比赛历史感,也没有对手模型。“它会下棋但不理解棋,就像计算器会算术但不理解数学一样。”
本章中最扎心的一句闲笔是:“即便在今天,也没有计算机能像三岁小孩一样理解语言,或像老鼠一样看清世界。” 在 2026 年,这句话的前半部分可能已经错了(取决于你如何定义“理解”),但后半部分依然站得住脚。
接着,本章在约翰·塞尔(John Searle)的中文房间思想实验上停留了很久。塞尔(当时是“加州大学伯克利分校一位有影响力的哲学教授”)于 1980 年发表了这一实验。一个只懂英文的人坐在房间里,拿着一本厚厚的英文规则书。写有中文的纸条从插槽传进来;他按照书中的指示操作字符,并将答案滑出去。对房间外的母语者来说,答案显得智能甚至深刻。但房间里的人不懂中文,规则书只是纸,草稿纸也只是草稿纸。那么理解到底发生在何处?塞尔的对应关系很精确:人是 CPU,规则书是软件,草稿纸是内存。因此,任何计算机,无论设计得多么巧妙,都不能说它“理解”任何东西——它只能产生正确的输出。霍金斯明确表达了自己的立场:“我认为塞尔是对的。当我思考中文房间论点和计算机的工作原理时,我没看到理解发生在任何地方。”
随后,他利用本章剩余部分超越了塞尔的终点。塞尔证明了一个否定结论;霍金斯则想要一个关于理解“是什么”的肯定定义。他提出了本书的核心论点:“理解不能通过外部行为来衡量;相反,它是一种内部度量,衡量大脑如何记忆事物,并利用这些记忆做出预测。” 行为是可选的。你可以躺在黑暗中思考,没有任何可观察的输出,但你依然是智能的。本章的杀手锏是对 AI 辩护者的退让——承认计算机原则上可以逐个神经元地模拟整个大脑,且该模拟将与原件一样智能——紧接着他指出,AI 研究人员并不模拟大脑,而且在不理解大脑在做什么的情况下,你无法模拟大脑。这就是本书其余部分的 任务。
这最后一句话是通往后续内容的门户,也是在 2026 年最值得拿来与你的 LLM 参照的观点。过去五年的行为革命构建了在多数具体形式下都能通过图灵测试的系统,因此霍金斯按照他自己的框架,不得不称它们为智能——或者修正他的定义。当前沿模型产生一个难题的正确推导答案时,它是在霍金斯所说的意义上进行“记忆与预测”,还是只是一个贴了更漂亮墙纸的塞尔房间?
我的个人答案(我认为该领域也仅达成了一半共识):大规模的下一个 Token 预测比霍金斯在 2004 年所认为的更接近“记忆与预测”。但它并不是他所详述的那种由“内部模型驱动”的预测。该模型没有与稳定的世界表征挂钩的自顶向下的预测轨迹,无法进行对比和更新。幻觉和超分布(OOD)的脆弱性都源于这一鸿沟。霍金斯在 2004 年识别了这一鸿沟;而我们至今仍在摸索如何填补它。
第二章:神经网络
本章开头,霍金斯于 1986 年 1 月抵达伯克利,并为自己列了一份自学清单——涵盖了当时所有关于智能和大脑功能的理论历史。他阅读了来自解剖学家、生理学家、语言学家、哲学家、计算机科学家和心理学家的数百篇论文,发现每个领域对同一种东西都有自己的“方言”。语言学家谈论语法和语义;视觉科学家谈论 2D、2.5D 和 3D 草图;计算机科学家谈论模式和框架;解剖学家详尽描述大脑结构,却拒绝承诺任何大规模理论。没人谈论同一件事,也没人在推理智能时谈论大脑结构本身。
在霍金斯进行这项阅读计划的中途,神经网络作为符 号 AI 的可靠替代方案重新回到了舞台中心。霍金斯对其中的政治博弈看得很透:神经网络自 20 世纪 60 年代后期就已存在,但“AI 作为当时占据统治地位的‘巨无霸’,积极压制神经网络研究”,连接主义者(Connectionists)基本上被排除在资助名单之外多年。到了 80 年代中期,AI 的持续失败创造了机会。新一代研究人员更喜欢“连接主义者”这个名字,他们提出了一个简单到不容置疑的三段论:大脑由神经元组成,因此大脑是一个神经网络。霍金斯本应是天然的受众,但他不是。几个月内,他就将神经网络归类为“有趣但错误”,本章大部分内容都在解释原因。
他的反对意见体现为三个标准,他坚持任何真实的大脑理论都必须满足这些标准,而当时流行的网络一个也没达到:
- 时间:真实的大脑处理的是快速变化的流;新皮质的信息输入和输出没有任何静态特征。80 年代标准的、由反向传播(Backpropagation)更新权重的三层网络,是在静态的输入输出对上训练的,没有任何代表“刚刚发生了什么”的内部状态。“网络中没有关于不久前发生的事情的历史记录。”
- 反馈:霍金斯提到了一个解剖学事实,其震撼力远超文字长度:在新皮质与丘脑(Thalamus)之间的电路中,向后连接(从皮质向感官末梢)的数量几乎是向前连接的十倍。每有一根纤维将感官信息上传到皮质,就有十根纤维将信号传回。反馈“同样主导着整个新皮质的大多数连接”。三层前馈网络没有这种结构。反向传播虽然名字里有“反向”,但它只在训练期间流动,且只携带误差信号;一旦模型部署,信息就是单向流动的。这绝不是霍金斯所说的反馈。
- 物理架构:新皮质被组织成重复的区域层级,每个区域都有相同的六层柱状结构(Column structure)。在霍金斯看来,任何架构与“复杂且分层的大脑结构相比显得平庸”的模型,都不可能像大脑一样工作——无论它在基准任务上表现得多么出色。
当时的大多数神经网络都未能满足这三个标准,但该领域依然停滞于此,因为它们足以产生商业结果。到 20 世纪 80 年代后期,神经网络已开始预测股市波动、评估贷款申请、验证签名。该领域变得富有,却忘记了初衷。霍金斯提到的流行典范是 NetTalk,这是一个学习将英文文本映射到音素序列的网络,“听起来像计算机语音在朗读单词”。它被国家新闻预演为机器学会了阅读。霍金斯对此评价尖锐:“它不会阅读,也不理解,几乎没有实际价值。它只是将字母组合与预定义的某种声音模式进行了匹配。”
本章中用以说明这种错误最生动的比喻是晶体管放大器。霍金斯说,想象你试图理解计算机的工作原理,但你不是研究计算机,而是孤立地研究晶体管。经过多年努力,你发现三个以特定方式连接的晶体管形成了一个放大器。一夜之间,制造晶体管收音机和电视机的行业兴起,许多人发了财,但这没能教给你任何关于计算机实际工作原理的知识。“真实的大脑和三层神经网络都由神经元构建,但除此之外几乎没有任何共同点。”
接着是本章最有趣的自传式插曲,也是书中最具影响力的段落之一。
1987 年夏天,霍金斯参加了一个神经网络会议,看了一家名为 Nestor 的公司的演示。Nestor 为平板电脑构建了一个基于神经网络的手写识别器,授权费高达 100 万美元。多年来一直痴迷于笔式计算的霍金斯立刻警觉起来。
那天晚上他回家彻夜 思考,在两天内设计了一个“快速、小巧、灵活”的手写识别器。他的版本没有使用神经网络,也一点不像大脑。这是一个工程方案,解决了 Nestor 包装成研究突破的难题。那个识别器最终成为了 Graffiti 的基础——这是近十年后在第一代 Palm 产品中搭载的文本输入系统。霍金斯补上了完美的冷笑话:“我想 Nestor 后来倒闭了。”
他还指出,同一次会议“激发了我设计手写笔接口计算机的兴趣(最终在十年后诞生了 PalmPilot)”。一次神经网络演示间接播下了种子的公司,最终资助了红木神经科学研究所和这本书的创作。书中没有直说,但时间轴已经说明了一切。
在 Nestor 的插曲之后,本章回到了核心论点:神经网络最深层的问题与经典 AI 一样——两者都将智能视为行为的属性。输出就是度量标准。“受艾伦·图灵启发,智能等于行为。” 霍金斯完全不同意,所用的辞藻与第一章反驳塞尔目标时如出一辙:“行为是智能的表现,但不是智能的核心特征或首要定义。片刻的思考就能证明这一点:你可以躺在黑暗中,仅仅通过思考和理解就能表现出智能。”
在结束前,霍金斯指出了他认为确实做对了一件事的连接主义研究分支:自结合存储器 (Auto-associative memories)。这是一小群神经网络理论家构建的网络,他们以不同的方式连接神经元——将每个神经元的输出反馈到网络的输入中,“有点像给自己打电话”。这种设计的两个属性直接映射了大脑的实际行为。首先,自结合存储器可以从部分或带有噪音的版本中检索出存储的完整模式。霍金斯用了全书最令人难忘的比喻:“这就像你带着吃了一半的棕色香蕉去杂货店,结果换回了完整的绿色香蕉。或者带着一张撕破且 无法辨认的钞票去银行,银行职员说:‘我觉得这是一张揉烂了的 100 美元钞票,把那个给我,我给你这张崭新的。’” 其次,在反馈循环中加入时间延迟后,自结合存储器可以存储模式序列——喂它《小星星》的前几个音符,它会返回整首歌曲。他指出这是连接主义研究中极少数认真对待反馈和时间的流派,并预言大脑几乎肯定使用了类似的东西。
本章以一段哲学思考结束,我在第二次阅读时发现它比第一次读时更有趣。
霍金斯认同自己是一个功能主义者 (Functionalist):认为心灵是组织的属性,而非介质的属性。AI 研究者、连接主义者和他自己都同意这一点。用盐罐代替丢失的国际象棋骑士,它依然是真正的骑士棋子,因为游戏是由功能而非材质决定的。每隔几年,你体内的多数原子就会更换,但你依然是你。如果一个疯狂科学家用功能等效的微型机器替换了你所有的神经元,程序结束后的你,自我感觉应该和进去时一样真实。
功能主义者内部的分歧在于下游:你是否必须模仿大脑的做法,还是可以发明自己的工程路径?AI 支持者持第二种观点——“为什么我们工程师要受限于进化偶然发现的方案?”——并倾向于鲁布·哥德堡 (Rube Goldberg) / 补丁的比喻。大脑是一个拥有数亿年历史、充满进化残余代码的乱摊子,所以应该推倒重来。标准的支撑案例是机翼与螺旋桨(我们并没有通过扇动翅膀来实现飞行)以及轮子与腿(我们并没有通过模仿猎豹来制造地面车辆)。
霍金斯承认这些类比,但划了一条不同的线。他写道,连接主义者“主要还是太胆小了”。他们直觉地感到大脑不是计算机,开始构建受神经元启发的松散网络,然后就停滞不前了,而不是一路推向架 构、层级和反馈。本章以其最广为引用的一句话结束:“我们必须从大脑内部提取智能。除此之外没有别的路。”
2026 年对本章的审计比对第一章更犀利。霍金斯的三条标准中有两条已被该领域满足,只是方式出乎他的意料。时间问题通过 RNN、LSTM 解决,最终由 Transformer 并行读取整个序列彻底解决。层级问题通过深度解决——一个 96 层的 Transformer 是层级的,即便这种层级与大脑皮质相比显得均匀且缺乏结构。而霍金斯意义上的反馈——在推理时从高层抽象向下传播到感官预期的持续自顶向下预测信号,而不仅仅是训练时的误差梯度——目前仍然基本缺失。现代注意力机制是动态且双向的,但它并未构建出本章描述的那种持久的、由顶层驱动的世界模型。丘脑-皮质回路中 10:1 的后向与前向连接比例,是目前任何架构都无法企及的数字。另一方面,自结合模式补全现在无处不在——向量搜索和检索增强生成(RAG)本质上就是工业级的自结合存储器,而 Hopfield 风格的网络在 2020 年左右的研究中也经历了小小的复兴。霍金斯提前二十年指出了这一研究路线的重要性,Nestor 公司大概现在还在后悔当年开价太低。
第三章:人类大脑
从这一章开始,本书不再批判他人的理论,而是开始展示自己的基石。本章充满了大量的解剖学知识,这些知识至关重要,因为全书其余部分都将其作为承重结构。这一章有三个乐章:新皮质的物理之旅、弗农·蒙卡斯尔(Vernon Mountcastle)单一算法猜想的引入,以及大量的演示,证明皮质并不在乎喂给它的是哪种感官——模式就是模式。
霍金斯开篇便承认并辩护了自己的“新皮质沙文主义”。批评者会说,你不能只看新皮质来解释智能——丘脑、海马体、脑干、基底核和杏仁核都很重要。他承认在人类智能方面这一点是对的,但划出了一条界线:“我对构建人类不感兴趣。我想要理解智能并构建智能机器。智能机器不需要有性欲、饥饿感、脉搏、肌肉、情感或类人身体。” 如果目标是智能而非生物完备性,那么最值得挖掘的地方就是新皮质。
接下来的物理描述是流行神经科学中最精彩的部分之一。
新皮质是一层厚约两毫米的组织。霍金斯让你叠起六张名片或六张扑克牌来感受实际厚度,每张牌代表皮质的六层结构之一。摊平后,人类皮质层大约有一张大餐巾纸那么大。老鼠的皮质层只有邮票大小;猴子的则像商务信封大小。这三者都拥有相同的六层结构。
人类更聪明,并不是因为我们的皮质层更厚或包含特殊的“聪明”细胞,而是因为我们的皮质层面积要大得多。为了把它装进头骨,进化将它折叠起来,“就像把一张纸揉进白兰地酒杯”。为了分娩这些大头的孩子,人类女性也进化出了更宽的骨盆。一些古人类学家认为这与直立行走是共同进化的。书中充满了这类细节。
一平方毫米的皮质层——大约相当于字母“o”的大小——包含约 10 万个神经元。整个新皮质包含约 300 亿个神经元。典型的锥体细胞(八成皮质神经元属于此类)携带数千个突触。书中给出的总皮质突触工作数值约为 30 万亿,霍金斯称这“显然足以存储你一生能学到的所有东西”。
他引用了克里克的晚年著作《惊人的假说》(The Astonishing Hypothesis)作为哲理总结:心灵是大脑中细胞的产物。没有魔术,没有特殊物质,只有神经元和信息的舞蹈。克里克为了政治正确称其为假说;霍金斯则指出这现在已是事实。
本章的第一个技术举措是确立外观均匀的皮质层具有专门的功能区域。早在功能成像出现之前,人们就知道了这一点,因为局限于特定区域的中风会产生特定的奇异缺陷。
右顶叶受损会导致患者失去对左侧空间的所有感知——甚至包括左侧这个概念。左额叶的布若卡氏区 (Broca's area) 受损会破坏语法,但保留词汇。梭状回 (Fusiform gyrus) 受损会破坏识别人脸的能力,导致患者无法识别自己的母亲、孩子,甚至照片中的自己。
丹尼尔·费勒曼(Daniel Felleman)和大卫·范·埃森(David van Essen)将猕猴皮质划分为几十个此类区域,并证明它们排列在一个复杂的树状层级结构中。视觉层级从 V1 开始,处理最低级的特征——边缘方向、色彩对比、运动、立体视觉的视差——并馈入 V2、V4、IT(存储人脸、动物、工具和身体部位高级视觉记忆的地方)和 MT(专门处理运动)。听觉皮质从 A1 开始,以类似方式上升;体感皮质从 S1 开始。联合区 (Association areas) 接收来自多种感官的汇聚输入——这就是为什么你知道飞在手臂上爬行的视觉和皮肤上的瘙痒感源自同一个原因。运动系统拥有镜像层级,从高级运动规划区下降到 M1,后者向脊髓发送连接并直接驱动肌肉。
霍金斯反复强调一个非显而易见的观点:信息在这个层级中是双向流动的,而且向下的流量大于向上的流量。传统的心理图景——感官信息上传、运动指令下传、整齐的流水线——在关键点上 是错误的。他举了一个令人吃惊的例子:“当你朗读时,你的高级皮质区域向你的初级视觉皮质发送的‘向下’信号,比你的眼睛从印刷页面接收到的信号还要多。” 即使在初级视觉皮质层面,自顶向下的预期也盖过了感官输入。如果这听起来不像是在描述 LLM 的先验(Prior)压倒了其上下文窗口(Context window),那它确实就是。
本章的重心在于弗农·蒙卡斯尔 1978 年的论文《大脑组织的一个组织原则》(An Organizing Principle for Cerebral Function)。这篇论文写于蒙卡斯尔在约翰·霍普金斯大学担任神经科学家期间。论文的主张简短而大胆。
无论你看向何处,新皮质的结构看起来都一模一样。视觉皮质像听觉皮质,像运动皮质,像布若卡语言区,几乎像每一个其他区域。解剖学家花了几十年编纂的差异——层厚、细胞密度、连接模式的微小变化——确实存在但非常微妙,“往往微妙到训练有素的解剖学家也无法达成一致”。
蒙卡斯尔的飞跃:既然这些区域看起来都一样,也许它们都在做同样的事情。视觉、听觉和运动控制之间的差异并不是算法的差异。差异仅仅在于每个区域碰巧与什么相连。单一皮质算法,不同的输入。
霍金斯对这一段文字充满了感情。“当我第一次读到蒙卡斯尔的论文时,我几乎从椅子上掉下来。这就是神经科学的罗塞塔石碑——一篇论文,一个想法,统一了人类心灵所有多样且奇妙的能力。” 他称蒙卡斯尔的猜想为“神经科学领域最重要的发现”,并对大多数科学家和工程师要么拒绝相信、要么忽视、要么根本不知道这一点感到惊讶。他用的类比是爱因斯坦的狭义相对论源自对光速的一个直觉反常的观察,或者达尔 文询问物种为什么如此相似而非死磕它们的差异。
本章剩余篇幅通过两类证据为蒙卡斯尔辩护:可塑性 (Plasticity) 和 模式可互换性 (Pattern fungibility)。关于可塑性,二十年后的实验依然令人震撼。新生雪貂的大脑可以通过手术重连,使眼睛的信号发送到听觉皮质而非视觉皮质;结果听觉皮质发育出了功能性的视觉通路,雪貂用原本听声的脑组织看见了世界。出生时移植到体感区域的老鼠视觉皮质发育出了触觉。天生耳聋的成年人用原本属于听觉的组织处理视觉信息。天生失明的成年人用视觉皮质(皮质最后端,从未接收过视觉输入的区域)阅读盲文——它自我改造以处理触觉。“显然,没有哪个皮质区域甘愿代表‘虚无’。” 基因铺设了大致的架构并决定了谁连接到谁,但在这一框架内,每个区域的功能由其在发育过程中碰巧接收到的输入决定。
关于模式可互换性,霍金斯提出了一个如果你从未想过就会觉得深刻的观点。大脑在一个黑暗、静默的盒子里;它没有自己的感官;医生戳它你没有任何感觉。你所经历的一切都以动作电位 (Action potentials)——完全相同的电脉冲——在轴突束上传递。视神经携带约 100 万根纤维,听神经约 3 万根,脊髓还有 100 万根用于触觉。顺着每束纤维传下来的脉冲在物理上是无法区分的。你之所以觉得视觉不同于听觉,是因为皮质内部的接线方式,而非信号本身有任何内在差异。“动作电位就是动作电位。你的大脑只知道模式。” 霍金斯指出,视觉尤其“更像一首歌而非一幅画”——眼睛每秒执行大约三次眼跳(Saccades),每次都彻底改变视网膜图像,而你感知到的稳定视觉世界完全是从这些随时间变化的模 式中构建出来的。听觉早在半个世纪前就被匈牙利物理学家格奥尔格·冯·贝凯希 (Georg von Békésy) 破译为频率分解器官——嵌入在颞骨(人体最硬的骨头)中的螺旋蜗壳的每一段都在不同的频段振动。触觉也一样:让朋友在你闭眼时把一个小物体(戒指、橡皮擦)丢进你不动的手掌心,你很难识别它;让你的手指移动,你立刻就能知道。“触觉也是一首歌。”
辅助演示是本章最有趣的部分。威斯康星大学的保罗·巴赫-伊-里塔 (Paul Bach y Rita) 构建了一个感官替代设备,将头戴式摄像头的像素映射到人类舌头上的压力点阵列。佩戴该设备的盲人学会了通过舌头“看”。埃里克·魏亨梅耶 (Erik Weihenmayer)——13 岁失明、2002 年成为首位登上珠穆朗玛峰的盲人运动员——在 2003 年尝试了这种舌头设备,自童年以来第一次看到了图像:地板上向他滚来的球、桌子上他伸手去拿的软饮料、一局“剪刀石头布”。他走下走廊,看到了尽头的门口,检查了门和门框,还注意到了上面的标志。“最初体验为舌头感觉的图像,很快就体验为了空间中的图像。” 海伦·凯勒 (Helen Keller) 在既无视觉又无听觉的情况下学会了语言,并成为比大多数感官健全的人更出色的作家。橡胶手错觉显示,如果你看着一只假手以与你的真手(隐藏在屏风后)相同的节奏被抚摸,大脑在几分钟内就会将假手纳入你的身体图景。给一个人一把耙子让他去够物体,耙子本身也会被拉入身体图景。
2026 年工程师对本章的注释是最温馨的。蒙卡斯尔的“多输入单一算法”猜想是神经科学派生出的、在 AI 工程史上最成功的想法,且它以霍金斯可能从未预见的方式得到了印证。 现代 Transformer 的单一架构——相同的算子堆叠、相同的训练过程,无论训练数据是文本、图像、音频、视频、机器人控制、蛋白质序列还是国际象棋棋谱——正是蒙卡斯尔主张在硅基上的实现。我们通过实验发现,同一堆层可以变成“视觉皮质”、“语言皮质”或“音频皮质”,取决于你喂给它什么。模式可互换性在现代系统中体现为 Token 化(Tokenization)令人惊讶的普适性:一旦某种模态被编码成 Token 序列,模型基本上不在乎这些 Token 从何而来。可塑性实验直接映射到了多模态预训练和迁移学习(Transfer learning),你甚至可以用 2026 年的词汇重写霍金斯的这一章而几乎不丢失任何信息。该领域目前尚未从本章吸收的部分是“向下主导的流量”——这种结构性事实:在你的初级视觉皮质中,自顶向下的信号量超过了感官输入。这种不对称性深植于皮质,但尚未内置于任何当前的生产级 AI 系统中。认真对待这一点的实验尚未真正开展。
第四章:记忆
这是大多数读者对本书印象最深的一次认知重塑,也是后续四章赖以建立的基础。论点很简单:新皮质不是计算机。它是一个记忆系统。它并不通过“计算”来得出问题的答案;它通过从存储的模式中“检索”答案。本章用大部分篇幅拆解了这是一种什么样的记忆系统,命名了四个属性:序列存储、自结合检索、不变性表征(Invariant representations)和层级结构。前三个是这里的焦点,第四个留待第六章。
开篇是百步法则 (The hundred-step rule),这是书中视角最清晰的思想实验之一。
真实的神经元很慢。典型的神经元放电并重置大约需要 5 毫秒,所以单个神经元每秒大约能进行 200 次操作。现代 CPU 每秒能进行 10 亿次。硅基的基本运算速度比脑组织快约 500 万倍。大脑的捍卫者通常反驳说神经元是并行工作的——数十亿个神经元同时放电——这种并行性足以弥补速度缺陷。霍金斯认为并行性论点是错误的,证据就在他最喜欢的这段文字中:
考虑一个人类能毫不费力在半秒内完成的任务:瞥一眼照片,告诉我上面是猫、熊、野猪还是萝卜。在半秒内,进入你视觉系统的信息最多只能穿过 100 个串联的神经元。所以无论大脑在做什么来解决这个问题,它都是在 100 步或更少的步骤内完成的。相比之下,100 条计算机指令几乎不足以在屏幕上移动一个字符。
并行性救不了计算机。如果一项穿越沙漠的任务需要 100 万个顺序步骤,即使你雇佣 1000 个工人,你依然需要 100 万步的时间才能穿过;超过这个点的增加人手毫无帮助。“一台计算机,无论它有多少处理器,运行速度有多快,都无法在 100 步内‘计算’出难题的答案。” 如果大脑是在计算,这在物理上是不可能的。唯一的出路是大脑不在计算,它在查表。“整个皮质是一个记忆系统。它根本不是计算机。”
霍金斯为了让对比更生动,举了接住飞球的例子。对人类来说这轻而易举;对机器人工程师来说这曾是经久不衰的噩梦。
工程师的方法是求解飞球轨迹的抛物线方程。然后再解一组更痛苦的方程,计算在正确时间把手放在正确位置所需的关节角度。随着新感官数据的到来,重复进行这两项计算。这需要数百万个步骤。
大脑不这么做。看到球的瞬间会自动检索出一组存储好的肌肉指令序列,并根据这个球 的具体路径和身体位置动态调整检索到的记忆。“接球的记忆并不是编进你大脑的程序;它是通过多年的重复练习学到的,它存储在你的神经元中,而不是计算出来的。”
水床类比是他最喜欢的、用来说明调整步骤如何工作的例子。坐下水床上,上面的枕头和其他人会自发地移动以适应你,并没有中央控制器在计算调整。水和床皮的物理特性完成了这一切。皮质则对信息执行类似的分布式操作。
属性一:模式序列
皮质记忆的第一个非计算机特性是它将模式存储为序列。故事只能按顺序讲;无论你说话多快,你都无法一次性讲完所有事情。记忆的工作方式相同。试着倒着背字母表。 你做不到,不是因为字母不在脑子里,而是因为你从未反向存储过它们。电话号码、一年中的月份、一周的天数——全部编码为序列。试着一次性哼出《彩虹之上》(Somewhere Over the Rainbow) 的所有音符。 你做不到。一首歌只存在于时间的展开中,找回它的唯一方法是按照最初听到的时间模式向前播放。
序列属性一直延伸到最简单的感官记忆。霍金斯提出了一个关于触觉的非常直观的观点:“如果趁你睡觉时把你的手埋在一桶碎石里,当你醒来时,除非你移动手指,否则你不知道自己在摸什么。” 触觉纹理是作为皮肤上一系列压力和振动模式存储的;静态模式本身是不够的。他坦言,在观察了自己几天后,他发现自己洗完澡用毛巾擦干身体的揉、拍和姿势顺序几乎每次都一模一样——经过一次“愉快的实验”,他发现他的妻子也是如此。试着换个顺序,你可以强迫自己做,但只要注意力一分散,你就会跳回习惯的序列。记忆存储在神经元之间的突触连接中。在任何时刻,只有极小一部分突触是活跃的;思考就是在这个巨大的存储空间中的轨迹,沿着学到的序列转换,从一组活跃神经元移动到下一组。“真正随机的念头是不存在的。记忆检索几乎总是遵循联想的路径。”
属性二:自结合检索
第二个属性是第二章引入并在此充分论证的。自结合存储 (Auto-associative memory) 意味着部分或扭曲的输入可以检索出完整的存储模式。你看到孩子的鞋子从窗帘后露出来,你的大脑就构想出了整个孩子。你在公交站看到灌木丛后露出半个身子的人,你的大脑补全了整个人——补全得如此完整,以至于你可能根本意识不到自己在推断。在交谈中,你的大脑从嘈杂环境中听取大约一半的单词,并从上下文中重构其余部分;我们经常听不到实际说了什么,而是听到了我们预期会听到的话。“有些人会大声补全别人的句子,但在我们的脑海里,所有人都在不断这样做。不仅是句尾,连句中和句首也一样。”
本章中最具文学色彩的例子是马塞尔·普鲁斯特的《追忆似水年华》——小说开篇写到了玛德琳蛋糕的味道,普鲁斯特由此展开了上千页的回忆。一个感官细节检索出了整个记忆序列。自结合检索正是霍金斯认为皮质无时无刻不在做的事情:“每个功能区域本质上都在警惕地等待熟悉模式或模 式碎片的进入。” 当碎片到达时,完整的模式亮起——序列中学习到的下一个模式也就此就绪。“进入大脑的输入自结合地链接到自身,填补当下;并自结合地链接到通常接在后面的内容。我们称这种记忆链为‘思考’。” 它的路径不是确定的,我们也不完全受控。
属性三:不变性表征
第三个属性是最重的,也是在本书其余部分出力最多的。计算机存储器以完美的忠诚度存储信息——一个字节就是你写入的那个字节,即使一比特的差异也能导致程序崩溃。皮质记忆不这么工作。大脑并不精确记得它看到或听到的东西。它记得的是世界中重要的关系,而独立于细节。经典例子:拿一个由黑白点组成的人脸,存储在人工自结合存储器中,然后将每个点向左移动五个像素。人工存储器将完全无法识别这个新模式。而你我甚至不会注意到这种变化。“如果模式被移动、旋转、缩放或以其他一千种方式变形,人工自结合存储器就会失效,而我们的大脑处理这些变化却游刃有余。”
书中点缀着具体的演示。你可以拿着这本书一百年,落在你视网膜上的光线模式从未有过一刻是完全相同的。然而你从不怀疑你拿着的是“同一本书”。你在两英尺外、二十英尺外、侧脸、微笑、打哈欠、阴影下、或是“角度奇特的迪斯科灯光”下都能认出朋友的脸。每一种视角,撞击你视网膜的光线模式都是唯一的。
霍金斯指向了直接的神经学证据。如果你从 V1 细胞中记录,活动模式随着每一次眼跳和 每一次位置移动而改变。但如果你从皮质层级中高几级的人脸识别区记录,你会发现稳定性。只要人脸在视野内的任何地方,无论大小、位置、方向、缩放或表情如何,同一组细胞都会保持活跃。“这种细胞放电的稳定性就是一种不变性表征。” 本章直言不讳地指出,构建此类表征的工程问题“依然是所有科学领域最大的谜团之一”。这句话在书出版时是真的,并在之后近十年里依然是真的。
这个问题有着古老的渊源。柏拉图在 23 个世纪前就纳闷,既然现实世界中的每个圆都是不完美的,我们如何能拥有完美圆的概念?既然我们看到的每条狗都不同,我们如何能有稳定的“狗”的概念?他的回答是“形式论(Theory of Forms)”——在超越平面上的固定永恒思想,我们的灵魂在出生前就已知晓。霍金斯表现得很温和:“从现代视角看,这很荒谬。但如果你剥离那些高深的形而上学,你会发现他真正谈论的是不变性。他的解释系统大错特错,但他直觉地感到这是我们可以问出的关于自身本质的最重要问题之一,这直觉正中靶心。”
接着,他将不变性的想法席卷了每种感官。触觉:伸手进汽车手套箱摸太阳镜;任何手指的任何部分都能在框架的任何位置找到它,无论眼镜怎么放。“只要任何部位在眼镜的任何部分移动一秒钟,就足以让你的大脑识别它们。” 感觉运动:把钥匙插进汽车点火孔——座位、身体、手臂和手每次的位置都略有不同,但对你来说感觉是一样的,因为大脑存储了不变性。机器人需要每次处于完全相同的姿态,换辆车就得重新编程。运动:你的签名是一个不变的程序,无论你用细笔精雕细琢,还是像约翰·汉考克 (John Hancock) 那样挥毫,或是在空中用肘部划拉,甚至是“用脚趾夹着铅笔笨拙地写”,都能产生可辨认的标记。音乐:你能在任何调子上听出《彩虹之上》。你从朱迪·加兰在《绿野仙踪》里的降 A 调演唱中学到了它,但钢琴弹奏 D 调依然是同一首歌——尽管每一个音符都变了。你的记忆存储的是音程,而非绝对音高:“升八度,接着降半音,接着降大三度。” 朋友的脸也是同一种表征:相对尺寸、相对颜色、相对比例——是空间音程而非音高音程。
本章的最后一击是:存储不变性记忆正是皮质能够对不断变化的世界做出具体预测的原因。
霍金斯用了一个寓言来完成这一推导。现在是 1890 年,你在美国西部的一个边境小镇。你的爱人正从东部坐火车来找你。没有公布的时间表;火车似乎随机来去。几周来你坚持记日志,结论是它们无法预测。然后你发现了一个结构:东行火车总是在西行车离开后四小时到达。四小时的间隔是不变量;绝对时间不是。在她到达的那天,你看着西行车离开。四小时后,你走向车站接她。
大脑不断这样做。为了预测熟悉歌曲的下一个音符,皮质将其对音程的不变性记忆与刚刚听到的特定音符结合起来。音程“升大三度”加上上一个音符“C”,产生了预测音符“E”。为了预测陌生光线下朋友脸庞的下一个瞬间,皮质将不变的人脸结构与当前感知的方向和光线结合,在眼睛看过去之前就填补了细节。“记忆存储、记忆检索和记忆识别都发生在不变形式的层面上。”
本章以向下一章的接棒总结结束:“本章讨论的皮质记忆的三大特性(存储序列、自结合检索和不变性表征)是根据过去记忆预测未来的必要成分。在下一章中, 我提出预测是智能的精华。”
2026 年工程师的审计在这里比之前任何一章都更犀利,因为霍金斯的三大属性在今天我们交付的架构中都有直接对应物。
序列存储是 2017 年以来每个成功生成式模型的核心设计选择。注意力机制(Attention)是一种检索相关过去 Token 的机制;下一个 Token 预测(Next-token prediction)正是霍金斯描述意义上的序列补全。自结合检索在本质上就是 RAG、向量搜索和 Key-Value 注意力:产生查询,检索匹配模式。不变性表征就是学习到的嵌入(Embeddings)。将人脸或句子映射到固定维度向量的全部意义,在于该向量应在姿态、光线、改写或字体变化下保持稳定;表面变化被投影出去而非被存储。
百步法则是没人谈论的部分,但它可以说是本章中最具先见之明的预测。一个在 50 毫秒内回答“这是猫还是野猪”的 Transformer 并不是在符号 AI 意义上进行“计算”。它是在通过一个固定深度的模式匹配器进行单次前馈(Forward pass),这比该领域通常愿意承认的更接近“从记忆中检索答案”。霍金斯对皮质记忆的架构设定,在惊人的程度上成为了自监督表征学习后来真正产生的规格。他只是无法预见这种相似性会如此字面化。
第五章:智能新框架
这是揭示书名含义的一章,也是书中情感最鲜活的一章。开篇是霍金斯坐在办公室里,那是 1986 年 4 月,他的伯克利阅读计划进行到一半,正纠结于一个无法释怀的问题:如果大脑不产生行为,它在做什 么? 信息进入大脑,内部发生了大量工作,但大多数时候没有任何可观察的结果。你可以静静坐着,理解你读到的内容,没有任何公开行动能证明你理解了——这正是塞尔的中文房间旨在否定的。那么,内部究竟发生了什么?
当霍金斯问自己,如果房间里出现了一个新物体——比如一个他从未见过的蓝色咖啡杯——会发生什么时,灵光一现的时刻到来了。答案是脱口而出的:它会引起他的注意。他不必刻意检查它是否属于这里;“不属于”的感觉会自动浮现。在这个看似平庸的答案之下,是支撑全书后续内容的认知:为了让这种不属于感浮现,他的大脑内部必须已经对应该出现的东西做出了成千上万个微小的预测——桌子中间的电脑、右角的台灯、原处的词典、当前时间对应的阳光角度、窗户是长方形的以及墙壁是垂直的。这些预测都在静静地得到满足。蓝色杯子违反了其中之一,这种违反而产生的体验他称之为“注意力”。他写道:“我们的所见所感,是感官所得与大脑记忆驱动的预测之结合。”
几分钟后,他在同一间办公室构想的思想实验——著名的改造门实验——至今仍是“大脑本质上是预测引擎”最清晰的论证。“假设当你外出时,我溜进你家,改变了关于你房门的某些东西。” 可能的改变清单列了整整一段:把把手移动一英寸,把圆形把手换成拇指插销,把黄铜换成铬,把实木换成空心(反之亦然),让铰链变得刺耳干涩或顺滑无阻,加宽或缩窄门框,换个颜色,在猫眼位置加个门环。“我可以想象出一千种你并不知情的改变。” 当你回家时,你几乎瞬间(最多几秒钟)就会察觉到不对劲。为什么?AI 工程师的数据 库方法——存储门的每一项属性并在进入时对比——在表面上看就是不可信的:属性列表无穷无尽,你得为遇到的每个物体都存这么一份表,且神经元速度太慢,无法以此执行数据库查询。“在你进门时,通过这种方式察觉变化需要花 20 分钟而不是两秒钟。”
“解读你对改造门反应的唯一方法是:你的大脑在每一时刻都对预期看到、听到和感觉到的东西做出底层感官预测,并且是并行进行的。” 视觉区域预测边缘、形状、位置、运动。听觉区域预测音调、声源方向、门发出的声音模式。体感区域预测触觉、纹理、轮廓、温度。“预测”意味着将要感知门的神经元在真正感知它之前就已变得活跃。当预测满足时,你穿门而过,甚至不知道预测曾发生过。当其中任何一个被违反——把手太低、门太轻、插销不在原位——错误就会升至注意力层面。“正确的预测带来理解……错误的预测带来困惑,并促使你付出注意力。”
接着是全书一直指向的核心结论句:“预测不只是大脑做的众多事情之一。它是新皮质的首要功能,也是智能的基石。皮质是一件预测器官。”
霍金斯诚实地交待了传承。他并没有发明“预测至关重要”的想法;他将自己置于一个传统之中。
名单包括:D.M. Mackay (1956),主张智能机器应具有旨在“匹配接收内容”的“内部响应机制”;纽约大学医学院的 Rodolfo Llinas,他在 2001 年的著作《漩涡中的我》(i of the vortex)中称预测未来的能力是“所有全球大脑功能中最终极、最通用的功能”;布朗大学的 David Mumford、华盛顿大学的 Rajesh Rao 和波士顿大学的 Stephen Grossberg。此外还 有整个贝叶斯网络分支,以 18 世纪英国牧师及统计学先驱托马斯·贝叶斯 (Thomas Bayes) 命名。
霍金斯认为,当时缺失的是将这些散落的碎片粘合进一个以皮质实际解剖结构为中心的统一框架。这正是本书正在做的工作。
本章的中段是一个长篇演示:在你的感觉中,你所做的几乎所有事情本质上都是预测。 霍金斯带读者参观了他自己做煎饼的早晨:他看都不看就伸手去拿柜台下的柜门,大脑知道把手摸起来是什么感觉,在哪里,什么时候摸到。他拧牛奶盒,预期它会转动并脱开。他拧煎锅旋钮,预期它会稍微顶进去,然后带着某种阻力转动,并在大约一秒钟后发出瓦斯火焰轻柔的“噗”声。“在厨房里的每一分钟,我都做出了几十次或上百次动作,每一次都涉及许多预测。我知道这一点,是因为如果任何一个动作的结果与预期的不同,我都会注意到。” 论证最简洁的版本是楼梯踏空:你的脚越过大脑预期着陆点的瞬间,在任何传感器告诉你任何信息之前,你就已经知道出错了。脚还没感觉到任何东西;预测只是没被满足。“由计算机驱动的机器人会幸福地摔倒,完全意识不到出了什么问题。”
预测在每个层面、每种感官中都在发生,且往往是概率性的。当你听一张熟悉的专辑时,在下一首歌开始前的几秒钟,你的脑海里就已经响起了前奏——而把专辑设为随机播放会产生一种“愉快而轻微的不确定感”,因为对下一首歌的预测被证实是错的。“一只大黄...” 在说话者还没说完之前就激活了代表“狗”的神经元(对于英语使用者;不懂该语言的读者则没有此类激活)。“请把那个...递给我” 建立了对“盐” 、“胡椒”或“芥末”的并行预期,若听到的是“人行道”则会由于惊讶而受挫。即使是一首你从未听过的音乐也会触发对规律节拍、重复节奏、乐句完成和主音收尾的预测——你瞬间就能察觉到违背之处。
本章几个最难忘的例子侧重于预测的失败而非成功。
当纽约市停止运行高架火车时,周边公寓的居民半夜报警说有东西吵醒了他们——那是本该在该时段经过的火车的缺席。远处电钻声是你只有在它停止时才会意识到的东西。
每只眼睛都有一个视神经离开视网膜的小盲点,你感知不到空洞,是因为视觉系统进行了填补。闭上一只眼盯着一张土耳其地毯或樱桃木桌面的纹理,纹理看起来是无缝的,尽管整个木结不断在视网膜视野中消失。填补无处不在,不只是盲点。在放大镜下,一张躺在岩石上的漂流木照片的边界是模糊的。在正常观察距离下,边缘看起来很锐利,因为皮质正在填补它预期在那里的东西。“你‘感知’到的并不是 V1 看到的。”
最令人不安的演示是双鼻实验。你的眼睛注视着一张脸的一只眼,然后跳到另一只眼,偶尔跳到鼻子、嘴巴或耳朵,一秒钟三次。每次注视都应该是一次冲击——眼跳每次都会激发 V1 中完全不同的细胞——然而你体验到的是一张稳定的脸。现在想象你遇到了一个在原本应该是第二只眼睛的地方长了第三只鼻子的人。你的眼睛注视第一只眼,然后跳到预期的第二只眼位置,结果发现了一个鼻子。你的注意力瞬间被唤醒。为了让这一幕发生,你的大脑必须对下一次眼跳将落在什么上面做出了预测。同样的逻辑解释了为什么除非椅子开始往后溜,否则你不会注意到自己的座位;为什么你手里的书页在你折坏它之前不 会让你惊讶;为什么世界显得稳定:大脑在不断针对现实验证其模型,而不是在重建模型。
本章的关键一步是主张相同的机制可以一路向上扩展。根据蒙卡斯尔的观点,如果每个皮质区域运行相同的算法,那么发生在感官皮质的预测工作也同样发生在最高抽象层级。
霍金斯举了一个例子。为了预测妻子今晚会提醒他倒垃圾,他的皮质将关于她的不变性记忆与当前观察结合。不变性记忆:她过去说过这话,今天是周五,垃圾桶必须在周五晚上推出去,他上周没按时做。当前观察:她的表情。从中,他的皮质产生了一个关于她将要说什么的具体预期。他可能不知道确切的措辞,但他知道大意。
“高等智能并非一种不同的过程。它从根本上依赖于相同的皮质记忆与预测算法。” 他顺便指出,IQ 测试字面上就是预测测试:完成数字序列、完成类比、给出物体的三个视图选出下一个。科学本身就是假设与验证——慢动作的预测。产品设计预测消费者想要什么。“智能是通过记忆和预测世界模式的能力来衡量的。”
本章以一个证明整个框架合理性的进化故事结束。爬行动物在拥有新皮质之前很久就拥有复杂的行为了:“鳄鱼拥有和你我一样复杂的感官。它拥有发育良好的眼睛、耳朵、鼻子、嘴巴和皮肤。它能进行复杂的行为,包括游泳、奔跑、躲藏、狩猎、伏击、晒太阳、筑巢和交配。” 哺乳动物进化时改变的是增加了一个记忆层——“新皮质”(Neocortex),拉丁语字面意思就是“新皮层”——它接入感官流并存储过去发生事情的模式。人类皮质在地质尺度上是最近才出现的;仅在几百万年前才剧烈扩张,而且“我们通过增加通用皮质算法的更多元素而变得聪明”,而不是发明了一个新算法。著名的会说话的老鼠思想实验承载了这一论点:在熟悉迷宫中穿行的拥有小皮质的老鼠,不是通过滑翔到奶酪那里来“看到”未来,而是通过识别拐角、检索上次发生事情的存储序列,并构想走廊尽头的奶酪。“如果我在这里右转,我知道接下来会发生什么。走廊尽头有一块奶酪。我在想象中看到了它。” 这就是皮质为爬行动物行为买到的:一扇通往极近未来的窗户。
皮质随后向两个方向进化。首先,它变得更大,存储了更丰富的记忆。其次——尤其是在人类身上——它开始从旧脑手中接管运动控制。老鼠的运动皮质很小,损伤它影响有限;损伤人类的运动皮质则会导致瘫痪。人类皮质的前半部分(朝向额头)不成比例地增长,承担了大部分高级规划、思考和运动指令,通过一条被称为中央沟的大裂缝与后半部分感官区隔开。在这里,霍金斯提出了全书最扣人心弦的一句话。当你把手臂移到脸前时,你可能认为大脑先移动手臂,然后预测会看到什么。他认为这完全反了。“我相信皮质预测到了会看见手臂,而正是这个预测导致了运动指令去实现这个预测。你先思考,这导致你采取行动去实现你的想法。” 在这个框架下,行为是预测的下游——预测是目标,运动指令则是为了满足它而做的。海豚虽然拥有巨大但只有三层的皮质,被作为一个极限案例提及:它们可能拥有丰富的关于海洋的自传式记忆,可能识别个体海豚,但它们的皮质没有像我们一样接管它们的行为。
本章最后回到了塞尔。如果中文房间包含一个能够预测下一个字符将是什么、故事接下来的走向的记忆系统,那么我们可以自信地说房间理解中文。“我们现在可以看到艾伦·图灵错在哪 里了。预测,而非行为,才是智能的证明。”
2026 年工程师的注释当你读完本章时基本已经成型了。自 2017 年以来,每个成功的生成式模型都建立在霍金斯置于其框架核心的那个目标之上。下一个 Token 预测是该领域收敛到的损失函数(Loss function),部分原因是除此之外没有别的在大规模下表现得同样好。这种一致性如此字面化,几乎到了令人尴尬的地步。
但差异依然真实。霍金斯的图景是在每个皮质层级都有连续的预测,自顶向下的预测信号在意识体验的每一刻都向下奔跑与自底向上的信号汇合。现代 Transformer 并不做此类事情。它们在输出端预测下一个 Token,而在中间层没有类似的预测流。改造门实验描述的是一个其中间表征本身就在并行进行预测的系统,这并不是 Transformer。
在 2026 年,那些明显更擅长长程推理和工具调用的前沿模型所做的事情,更接近改造门的图景。它们生成显式的预测(“在下一次动作后我预期看到 X”),将其与观察结果对比并更新。但它们是在草稿纸的文本层面上做的,而不是在网络内部的激活层面上。我认为霍金斯的框架会预言:下一次架构层级的突破将来自于将这种对比循环推入层级本身。二十二年前,目标是对的,而具体的实现位置仍在建设中。
第六章:皮质如何运作
这显然是全书最长且技术细节最暴露的一章。这也是霍金斯从一个框架(“皮质是一个记忆-预测引擎”)迈向一个可证伪假设(“这是一个真实的皮质片断如何实现该引擎”)的地方。
他以拼图类比开场。由于没有自顶向下的框架,神经科学被迫自下而上地组装大脑。拼图有成千上万块。许多块有两种解读方式。许多块最终会被证明根本不属于这块拼图。每个月都有新的碎片寄到并替换旧的。更糟的是,“你根本不知道最终结果会长什么样。” 霍金斯的观点是:记忆-预测模型可以扮演包装盒上参考图的角色。一旦你知道寻找什么,现有数据就开始自我组织。
他提到了加州理工学院的 Gabriel Kreiman 和 Christof Koch,以及 加州大学洛杉矶分校的神经外科医生 Itzhak Fried。他们发现了一些细胞,只要患者看到比尔·克林顿的照片就会放电——这正是他的框架所预测的高级不变性表征。他在本章的一个明确目标就是解释一个“克林顿细胞”是如何诞生的。
嵌套的世界,层级的皮质
霍金斯首先重构了视觉皮质的教科书级标准图景。经典故事是一个四步流程:V1 探测边缘,V2 将其组合成形状,V4 构建物体,IT 在顶层实现不变性。霍金斯列出了三个问题。首先,如果蒙卡斯尔的单一算法主张是对的,为什么不变性只在 IT 出现?其次,V1 的两个不相邻区域没有直接连接,却都参与识别同一张脸——它们必须在并行做同样的事。第三,高级区域从多个低级区域接收汇聚输入,但 V1 和 V2 并不接收,这违反了均匀算法假设。他提出的重构方案:V1、V2 和 V4 不应被视为单一区域。每个都是由大量小型子区域组成的集合,每个都在较小的视觉切片上做 着和 IT 同样的工作。“每个区域都形成不变性表征。” 不变性并不是神奇地出现在顶层的属性;它是皮质的基本操作。
本章最有用的宏观论点是:皮质被构建为层级,是因为世界本身就是层级的。音乐是音符嵌套在音程中,嵌套在乐句中,嵌套在旋律中,嵌套在专辑中。书面语言是字母嵌套在音节中,嵌套在单词中,嵌套在分句中,嵌套在句子中。你的社区街道包含房子,房子包含房间,房间包含墙壁、门窗,每个都由更小的部件组成。“世界中所有的物体都由始终一致出现的子物体组成;这正是物体的定义。” 大脑被设计用来发现并存储这种嵌套结构,因此其记忆被映射到一个匹配的层级:大规模的关系存储在顶层,小规模的细节存储在底层。这就是为什么当你的眼睛注视着窗户插销时,你依然知道你在家里的客厅看着窗户——高级区域维持着大的上下文,而低级区域处理快速变化的细节。
序列中的序列
皮质区域的工作是学习它从下方看到的模式序列,给每个学到的序列一个名字,并将该名字上传给上一级区域。名字是一组细胞,只要序列在播放,它们的集体放电就会保持恒定。高级区域只看到这个稳定的名字——在整首歌期间是一个恒定的信号——而低层区域则看到快速变化的音符。随着层级的上升,序列坍缩为名字,名字坍缩为名字序列,稳定性不断累积。这就是不变性表征形成的方式:不是从 V1 到 IT 的一次飞跃,而是步步为营、序列接序列,每一层都抹平了下一层 的波动。
沿着层级向下,同样的机器反向运行。顶层一个稳定的不变模式在下一级被展开为一个序列。
霍金斯举了一个他肯定排练过的例子:葛底斯堡演说。他在七年级背过,几十年后依然能复述。语言层级的顶层存储了该演讲的单一模式。下一级区域将该模式展开为短语序列。再下一级将每个短语展开为单词序列。在最低的运动层,每个音素被展开为肌肉指令序列。同一套顶级模式可以在运动皮质处产生分支。如果你决定打出这段演讲而不是说出来,单词会展开为字母和手指指令而非音素和口腔指令。
“注意,你不需要背两次演讲,一次说话用一次写字用。” 霍金斯认为,这种跨层级的共享与重用正是大脑如此高效的原因。嵌套序列的层级允许相同的底层对象——单词、音素、字母——参与到任意多级的高级序列中。
支撑类比是军事指挥链。一位将军说“把部队移到佛罗里达过冬”,指令通过层级展开为越来越具体的行动:准假、运输、到达准备,然后是成千上万名士兵采取数万次具体动作。汇报则沿链条向上逐级汇总;将军得到的是“移师佛罗里达一切顺利”。但如果发生了下属无法处理的意外,问题就会逐级上报,直到有人知道该怎么办。霍金斯说,这正是皮质在面对意外输入时的表现。
将模式分类为一组离散的“桶”是皮质区域的另一个基本操作。霍金斯通过 rrgpog 例子使其变得具体。想象将彩色纸片分类到十个桶里——绿、黄、红、橙、紫等等。有些纸片很容易,有些则模棱两可(介于红橙之间)。你必须做出决定。现在假设你也注意到序列“红-红-绿-紫-橙-绿”(称之为“rrgpog” )不断出现。一旦你知道了这个序列,在“红-红-绿-紫”之后出现的一张模棱两可的纸片就可以自信地被称为“橙色”,因为序列预测了它。分类和序列学习是互补的:分类给了你字母表,序列给了你单词,一旦你有了单词,你就可以用它们来消除嘈杂字母的歧义。他顺便指出,这正是你阅读手写或模糊文本时的情形:脱离上下文的单个字母通常难以辨认,但在已知的句子中它们会瞬间清晰。
皮质区域内部
结构之旅从一个硬币大小的皮质区域开始。它有六层厚(就是第三章提到的六张名片),由成千上万个垂直穿过各层的皮质柱组成。每一层都有自己的细胞密度和类型:第 1 层几乎全是轴突,细胞极少;第 2、3 层密布着锥体神经元;第 4 层有星状细胞;第 5 层包含普通锥体细胞加上一类特大的锥体细胞;第 6 层有其独特的类型。微柱 (Microcolumns)——每个约 100 个神经元,全部源自胚胎发育期间从内脑腔向外迁移的单一前体细胞——在垂直方向上紧密连接。人类皮质有“几亿个微柱”。霍金斯提供了一个难忘的视觉构想:想象一个发丝粗细的微柱;将数千根这样的发丝剪成小写字母 i(不带点)的高度;将它们像密实的刷子一样并排排列;在顶部铺上一层长长的平行发丝,代表第 1 层的轴突。蒙卡斯尔在 1979 年提出,皮质柱是皮质的基本计算单元。 霍金斯修正道:皮质柱是预测的基本单元。为了让皮质柱预测它何时应该活跃,它需要知道其他地方发生了什么——因此出现了一个惊人的事实:皮质柱内细胞 90% 以上的突触来自柱外细胞。
该结构的信息流有三个回路:
- 向上:来自低级区域的前馈输入汇聚在第 4 层,由第 4 层激发该柱其余部分向第 2、3 层移动。第 2、3 层随后将轴突伸向下一级高级区域的第 4 层。
- 向下:第 6 层细胞投射到下级区域的第 1 层,轴突在那里长距离横向铺开。下级区域第 2、3、5 层的细胞在第 1 层有树突,并被这些扩散的自顶向下信号激发。
- 延迟的丘脑反馈:大型第 5 层细胞投射到非特异性丘脑,后者投射回许多区域的第 1 层。这为自结合存储器学习序列提供了所需的延时信号。
霍金斯用一句话总结了这种架构:进入第 1 层的输入中,一半来自邻近皮质柱和区域的第 5 层细胞——代表刚刚发生了什么;另一半来自层级更高区域的第 6 层细胞——代表当前听到的是哪首歌。按照这种说法,第 1 层同时承载了“我们在歌的什么位置”和“这是哪首歌”。这正是一个皮质柱在预测它何时放电时需要知道的信息。
霍金斯提出了四个机制问题,并分别为每个问题提出了候选机制:
- 分类:每个柱的第 4 层细胞通过投票决定输入属于哪个“桶”。抑制性细胞让一个柱在邻近区域胜出。
- 序列学习:当一个柱被第 4 层激活时,第 2、3、5 层的细胞放电。它们的第 1 层突触随后针对第 1 层中当前活跃的任何信号进行强化。经过足够的重复,这些第 1 层突触变得足够强,可以在没有底层第 4 层输入的情况下激发该皮质柱。该柱开始预期即将到来的输入并放电。在这个框架下,这就是 神经层面的预测:皮质柱在被底层驱动之前就开始放电。
- 形成恒定名字:霍金斯为两类细胞提出了特定角色。第 2 层细胞在学习过的序列播放期间保持开启——即“名字细胞”。当皮质柱意外变得活跃时,第 3b 层细胞放电——即“意外输入细胞”。当预测满足时,第 3a 层抑制 3b。这种组合产生了上一级区域所需的恒定模式。
- 从不变性记忆产生具体预测:皮质将自顶向下的不变性预测与自底向上的部分输入结合,寻找交集。霍金斯以音程 D-A 为例:高级区域预测“预期一个五度音程”。这激活了所有代表五度的皮质柱(C-G、D-A、E-B 等)的第 2 层细胞。自底向上的输入则说“上一个音符是 D”,这给所有包含 D 的皮质柱(D-E、D-A、D-B 等)提供了第 4 层部分输入。两个信号重合的唯一皮质柱就是 D-A。该柱中的一个第 6 层细胞放电,产生了对下一个音符 A 的具体预测。霍金斯想到的思想模型是两张打孔的纸:将一张叠在另一张上面,对齐的孔就是活跃的皮质柱。Stephen Grossberg 称之为“折叠反馈”;霍金斯更喜欢叫它“想象”。
感知与行为是一回事
本章主张,运动控制和感官预测不是分开的系统,而是同一套机器的不同视角。视觉皮质区域(如 V2 和 V4)的第 5 层细胞投射到大脑中移动眼睛的部分——这意味着视觉皮质帮助决定眼睛下一步看向哪里。运动指令本身就是运动层级顶层的不变性表征,它展开为底层的特定肌肉指令,这完全镜像了感官的展开过程。当 IT 识别出“鼻子”,而面部序列中的下一项应该是“眼睛”时,仅仅切换到“眼睛”的不变性表征就会向下级联产生一次特定的眼跳——且这次眼跳的大小和方向都恰好符合面部当前的位置。“思考序列中的下一个模式会导致对你接下来的体验产生级联预测。随着级联预测的展开,它生成了履行预测所需的运动指令。思考、预测和行动都是通过皮质层级向下移动的序列展开的一部分。” 这是本章对第五章论点的最明确表述:“目标导向的行为是机器人的圣杯。它被内置于皮质的纤维之中。”
这种图景的另一面是失败时的感觉。当你走过一个熟悉的房间时,大多数预测在低层就得到了满足,错误从未上升太远。当你走下一架飞机进入一个陌生的国家时,错误会高速飙升——汽车靠错的一侧行驶,货币很奇怪,找厕所耗尽了你所有的皮质能量。 霍金斯给出的实用建议自从我第一次读到就一直铭记在心:“在异国他乡行走时,不要试图排练演讲。” 皮质无法分身。另一个生动的演示是点阵图中的斑点狗。起初你看到的是噪音。你的眼睛扫描,错误冲上层级,顶层尝试各种假设,这些假设冲回底层并与底部冲突。困惑就是没有一致预测的状态。然后突然间,在不到一秒的时间里,正确的顶级预测一路传播到底部——咔哒、咔哒、咔哒、咔哒——斑点狗跃然而出。这就是“顿悟”时刻。它并不是新的感知碎片;它是终于获胜的新预测。
