780 篇博文含有标签「ai-engineering」

流式响应追踪模式鸿沟：为什么你的 APM 在 LLM 延迟上撒了谎

2026年5月13日 · 阅读需 12 分钟

Software Engineer

凌晨 02:14，报警器响了：客户反馈助手在回答长问题时“话说到一半就卡住了”。你打开追踪（trace）。LLM 调用的 span 显示为 8.4 秒 —— 绿色，在 SLO 范围内，没有错误属性，结束原因（finish reason）为 stop。仪表板上该端点的 p95 延迟聚合组件显示为 9.1s，与过去一个月的情况完全一致。根据 APM 显示的所有信号，该请求都成功了。

用户看到前 200 毫秒表现完美，接下来的四秒钟生成了一个连贯的段落，然后眼睁睁看着同样的三句话片段在剩下的四秒钟里不断重复，直到连接结束。这种卡住的内容循环（stuck content loop）是真实的故障，但追踪系统对此一无所知 —— 因为追踪系统是为“返回即结束”的系统设计的，而不是为了这种行为表现为生成过程中产生的中间状态之墙的系统。

少样本示例造成的租户泄露：当你的提示词库变成跨客户数据存储库

2026年5月13日 · 阅读需 13 分钟

Tian Pan

Software Engineer

打开一个日益成熟的 AI 产品的生产环境系统提示词（system prompt），向下滑过角色描述，你几乎总能看到一个标有 # Examples 或 ## Few-shot demonstrations 的部分。这些示例非常出色——它们很具体，具有领域针对性，且精准地匹配了上季度评估集（eval set）中表现不佳的失败模式。但在仔细观察后，你发现它们其实也是真实的客户数据。来自真实账户的真实工单 ID。从支持会话中原封不动摘录的措辞模式。某个租户使用的内部产品代码，而其他客户群从未听说过。

把这些示例放进去的团队并不是粗心大意。这些示例进入提示词的方式与好示例一贯进入提示词的方式相同：有人从生产环境的追踪（traces）中挖掘出模型处理不佳的案例，挑选出最干净的现成示例，将其粘贴到系统消息中，看着评估分数上升，然后发布。这条从生产环境追踪到系统提示词的流水线，是现代 LLM 工程中最可靠的提示词改进闭环。但这也是团队在不知不觉中构建的一个结构性跨租户数据泄露渠道，而系统提示词已悄然变成了一个数据处理协议（DPA）从未涵盖的多租户数据存储库。

你的微调语料库是代码库。别再通过存储桶交付了。

2026年5月12日 · 阅读需 12 分钟

Tian Pan

Software Engineer

在任何严肃的微调项目进入到第九个月时，你的训练语料库的作者数量可能已经超过了你的代码库。合成生成流水线编写了数百万个示例。供应商标注公司从你从未见过的劳动力那里贡献了 8 万行数据。一位工程师在上周二添加了 47 个示例，以修复他们在评估（eval）中发现的回归问题。一个抓取任务每天晚上将生产环境的追踪记录（traces）拉取到一个“补充”的 parquet 文件中。二月份有人扔进 S3 的一个 CSV 文件仍然在那里，仍然处于训练组合中，而编写该文件的人已经在三月份离职了。

现在看看你的应用程序代码仓库。每一行代码都可以追溯到具体的作者。每一次变更都经过了至少一名审核者的 PR。提交（Commits）是经过签名的。主分支（Main branch）是受保护的。合并需要第二个人参与。这里有审计日志。如果审计员询问 payment_processor.py 的第 47 行是谁写的，你可以在几秒钟内给出答案。

如果他们问产生模型 v2.3 的语料库中的第 47 个示例是谁写的，诚实的回答是“2024 年第二季度的 Mechanical Turk 批次，供应商未知，理由缺失。”你的微调语料库是比代码库权限更高的部署表面——它直接决定了生产环境中模型的行为——而你正在通过存储桶（bucket）发布它，却通过经过审查的 PR 发布代码。威胁模型被倒置了。

《智能时代》逐章解读：这本 2004 年的著作预言了现代 AI 的半壁江山

2026年5月11日 · 阅读需 122 分钟

Tian Pan

Software Engineer

2004 年，一本探讨大脑的著作指出：智能的核心本质在于预测。二十二年后的今天，人工智能领域的主流范式几乎完全建立在“预测下一个 Token”的训练基础之上。这本著作值得我们重新研读。

杰夫·霍金斯（Jeff Hawkins）与桑德拉·布莱克斯利（Sandra Blakeslee）合著的《智能时代》（On Intelligence）是那种罕见的技术书籍——其核心主张在经历了时间的洗礼后，以一种极其“微妙”的方式显现了它的正确性。书中提出的框架准确地描述了大脑的运作方式，但在如何通过工程手段实现机器智能方面，它几乎肯定走错了路。即便如此，它依然是我所知道的、解释为什么你的大语言模型（LLM）会如此“自信地一本正经胡说八道”最清晰的思想模型。

以下是为你准备的逐章总结。这份总结是为 2026 年奋战在 AI 开发一线的工程师撰写的，而非神经科学研讨会。我将克制住反驳书中每一项主张的冲动，只为你呈现其核心骨架。同时，作为一名在职工程师，我会在各章末尾附上注释，探讨这些观点对你下周要构建的功能有何启示。

序言：Palm Pilot 创始人寻找大脑奥秘

序言带有自传色彩，且至关重要。霍金斯开篇便宣称，有两大激情贯穿了他的一生：移动计算和大脑研究。

前者让他名利双收。他于 1992 年 1 月创立了 Palm Computing，1998 年又与唐娜·杜宾斯基（Donna Dubinsky）和爱德·科里根（Ed Colligan）共同创立了 Handspring。他是 PalmPilot、Visor 和 Treo 的架构师——这些设备可以说奠定了现代智能手机的雏形。而第二个激情才是他真正的执念，这本书之所以存在，是因为他从未放弃过对大脑的探索。

霍金斯讲述的成名史非同寻常。1979 年 6 月，他从康奈尔大学获得电气工程学士学位。青少年时期，他曾列出人生想要解决的四个“基本问题”，最后一个也是最大的一个，就是智能是如何工作的。他去当地图书馆寻找关于大脑的经典著作，却惊讶地发现根本没有这样的书——因为当时没由于人真正知道大脑是如何工作的。

毕业三个月后，1979 年 9 月号的《科学美国人》（Scientific American）面世了：这是一期关于大脑的专题。DNA 双螺旋结构的发现者之一弗朗西斯·克里克（Francis Crick）贡献了一篇题为《思考大脑》的论文。克里克的抱怨切中了要害：神经科学积累了堆积如山的神经元和化学数据，但缺乏他所谓的“广泛的思想框架”，无法告诉人们这些数据究竟意味着什么。霍金斯读完后，带着一种只有 22 岁年轻人自有的那种笃定感，决定将寻找这个框架作为毕生的事业。

然而，执行过程绕了弯路。他先是在波特兰的英特尔公司担任软件工程师，随后撰写了一份提案，主张英特尔应该资助大脑研究，因为理解大脑皮质最终将彻底改变微处理器的设计。英特尔拒绝了。他转到英特尔波士顿办公室，向麻省理工学院（MIT）人工智能实验室提交了同样的方案——他能否与他们一起研究“真实的大脑”？MIT 也拒绝了。当时的人工智能项目明确导向超越生物智能，而非理解它，霍金斯的“自下而上”框架与实验室负责人的理念格格不入。

1986 年，他进入加州大学伯克利分校的生物物理学项目，计划将开发新皮质理论作为博士论文。在修读了大约两年的课程后，他的提案被否决了：没有教授在他所追求的那种通用层面上研究新皮质理论，也没有人愿意指导一个跨越如此多子学科的项目。他没有拿学位就离开了，回到工业界，加入 GRiD Systems 担任研究副总裁，并于 1989 年设计了 GRiDPad——最早的平板电脑之一，也是他在 Palm 开发设备的直系祖先。从此，他通过 Palm 和 Handspring 积累了巨大的财富，足以资助他想建立的任何机构。

于是，2002 年，他在门洛帕克建立了自己的研究机构：红木神经科学研究所（Redwood Neuroscience Institute）。这是一个致力于解决单一问题的非营利组织：新皮质究竟在做什么？ 当时没有任何大学科系是为此而设的。《智能时代》在两年后出版，作为该研究所的宣言。2005 年 3 月，他与杜宾斯基和迪利普·乔治（Dileep George）创立了营利性后续公司 Numenta，旨在将该理论转化为软件。

序言的情感核心，也是你不应错过的部分是：这本书是当一个被英特尔、MIT 和伯克利教授委员会多次拒绝的人，在变得足够富有后，亲自出资寻找答案的产物。一旦你理解了这一点，后续章节中的编辑选择便一目了然：对经典 AI 的不耐烦、对单一算法驱动整个皮质的信念、在实验证据完备前发布可证伪理论的勇气。从某种意义上说，这本书是霍金斯自 22 岁起就试图书写的辩护词。

第一章：人工智能

本章的前半部分是霍金斯自传的第二乐章，因其细节极其具体而占有一席之地。他在英特尔工作时负责教客户如何设计微处理器系统，期间他写信给董事长戈登·摩尔（Gordon Moore），提议英特尔资助大脑研究。书中用一段精辟的文字概括了这封信：“亲爱的摩尔博士，我建议我们成立一个致力于理解大脑工作原理的研究小组。可以先从一个人——也就是我——开始。我相信我们能搞清楚。这在未来会是一门大生意。”摩尔没有答应，但他把信转给了英特尔首席科学家、第一款微处理器的设计者泰德·霍夫（Ted Hoff）。霍金斯飞往加州亲自推介，事后才发现霍夫在早期的神经网络理论方面也有资深背景——这正是最不适合听取“神经科学即将变得可解”论点的受众。霍夫告诉他，大脑在可预见的未来无法被理解，因此对英特尔来说没有商业意义。二十五年后，霍金斯在书中承认霍夫是对的：“在商业中，时机就是一切。” 之后便是序言中提到的 1981 年 MIT 的拒绝，接着是在 GRiD Systems 的蛰伏，最后是伯克利。

本章的后半部分需要仔细研读。它对经典 AI 的思想史做了精简的回顾，即使在今天看来依然非常深刻。

霍金斯将该领域的核心教条——“大脑只是另一种计算机”——追溯到艾伦·图灵（Alan Turing）对通用计算的证明。一旦图灵证明了所有数字计算机在逻辑上都是等价的（无论介质如何），那么推导出“大脑也是等价的，只要你在正确的抽象层面上描述它”似乎就顺理成章了。

这种世界观由两大支柱支撑。一是沃伦·麦卡洛克（Warren McCulloch）和沃尔特·皮茨（Walter Pitts）1943 年的论文，证明了生物神经元原则上可以实现逻辑门（与、或、非）。二是 20 世纪中叶占统治地位的心理学流派——行为主义，认为大脑内部是一个不可逾越的黑箱，唯一值得研究的是生物体的输入输出行为。二战后实用数字计算机出现时，该领域对其前提充满信心，以至于将翻译视为破译密码，将视觉视为几何问题，将通用智能视为几年内就能解决的任务。

接着，本章走过了那些失败的残骸，指名道姓：

Eliza：通过改写用户输入来模仿精神分析师。例如，用户说“我男朋友不再跟我说话了”，它会回复“多跟我说说你男朋友”或“你为什么觉得你男朋友不再跟你说话了？”Eliza 在图灵测试中最接近欺骗人类，霍金斯指出了其中的讽刺：最擅长图灵挑战的 AI 程序，居然是一个被设计成玩笑的、刻意为之的简单小把戏。
积木世界 (Blocks World)：可以自信地回答“大红方块上面是否有绿色金字塔？”，但除了模拟房间之外，无法泛化到任何地方。
定理证明程序：只能重新发现已知的定理。
专家系统：20 世纪 80 年代的巨大希望，结果证明只是脆弱的事实数据库，在狭窄领域之外表现平平。
深蓝 (Deep Blue)：1997 年击败了加里·卡斯帕罗夫。霍金斯直言不讳：“深蓝的胜利并不是因为它比人类更聪明，而是因为它比人类快几百万倍。”深蓝对棋盘局势没有直觉，没有比赛历史感，也没有对手模型。“它会下棋但不理解棋，就像计算器会算术但不理解数学一样。”

本章中最扎心的一句闲笔是：“即便在今天，也没有计算机能像三岁小孩一样理解语言，或像老鼠一样看清世界。” 在 2026 年，这句话的前半部分可能已经错了（取决于你如何定义“理解”），但后半部分依然站得住脚。

接着，本章在约翰·塞尔（John Searle）的中文房间思想实验上停留了很久。塞尔（当时是“加州大学伯克利分校一位有影响力的哲学教授”）于 1980 年发表了这一实验。一个只懂英文的人坐在房间里，拿着一本厚厚的英文规则书。写有中文的纸条从插槽传进来；他按照书中的指示操作字符，并将答案滑出去。对房间外的母语者来说，答案显得智能甚至深刻。但房间里的人不懂中文，规则书只是纸，草稿纸也只是草稿纸。那么理解到底发生在何处？塞尔的对应关系很精确：人是 CPU，规则书是软件，草稿纸是内存。因此，任何计算机，无论设计得多么巧妙，都不能说它“理解”任何东西——它只能产生正确的输出。霍金斯明确表达了自己的立场：“我认为塞尔是对的。当我思考中文房间论点和计算机的工作原理时，我没看到理解发生在任何地方。”

随后，他利用本章剩余部分超越了塞尔的终点。塞尔证明了一个否定结论；霍金斯则想要一个关于理解“是什么”的肯定定义。他提出了本书的核心论点：“理解不能通过外部行为来衡量；相反，它是一种内部度量，衡量大脑如何记忆事物，并利用这些记忆做出预测。” 行为是可选的。你可以躺在黑暗中思考，没有任何可观察的输出，但你依然是智能的。本章的杀手锏是对 AI 辩护者的退让——承认计算机原则上可以逐个神经元地模拟整个大脑，且该模拟将与原件一样智能——紧接着他指出，AI 研究人员并不模拟大脑，而且在不理解大脑在做什么的情况下，你无法模拟大脑。这就是本书其余部分的任务。

这最后一句话是通往后续内容的门户，也是在 2026 年最值得拿来与你的 LLM 参照的观点。过去五年的行为革命构建了在多数具体形式下都能通过图灵测试的系统，因此霍金斯按照他自己的框架，不得不称它们为智能——或者修正他的定义。当前沿模型产生一个难题的正确推导答案时，它是在霍金斯所说的意义上进行“记忆与预测”，还是只是一个贴了更漂亮墙纸的塞尔房间？

我的个人答案（我认为该领域也仅达成了一半共识）：大规模的下一个 Token 预测比霍金斯在 2004 年所认为的更接近“记忆与预测”。但它并不是他所详述的那种由“内部模型驱动”的预测。该模型没有与稳定的世界表征挂钩的自顶向下的预测轨迹，无法进行对比和更新。幻觉和超分布（OOD）的脆弱性都源于这一鸿沟。霍金斯在 2004 年识别了这一鸿沟；而我们至今仍在摸索如何填补它。

第二章：神经网络

本章开头，霍金斯于 1986 年 1 月抵达伯克利，并为自己列了一份自学清单——涵盖了当时所有关于智能和大脑功能的理论历史。他阅读了来自解剖学家、生理学家、语言学家、哲学家、计算机科学家和心理学家的数百篇论文，发现每个领域对同一种东西都有自己的“方言”。语言学家谈论语法和语义；视觉科学家谈论 2D、2.5D 和 3D 草图；计算机科学家谈论模式和框架；解剖学家详尽描述大脑结构，却拒绝承诺任何大规模理论。没人谈论同一件事，也没人在推理智能时谈论大脑结构本身。

在霍金斯进行这项阅读计划的中途，神经网络作为符号 AI 的可靠替代方案重新回到了舞台中心。霍金斯对其中的政治博弈看得很透：神经网络自 20 世纪 60 年代后期就已存在，但“AI 作为当时占据统治地位的‘巨无霸’，积极压制神经网络研究”，连接主义者（Connectionists）基本上被排除在资助名单之外多年。到了 80 年代中期，AI 的持续失败创造了机会。新一代研究人员更喜欢“连接主义者”这个名字，他们提出了一个简单到不容置疑的三段论：大脑由神经元组成，因此大脑是一个神经网络。霍金斯本应是天然的受众，但他不是。几个月内，他就将神经网络归类为“有趣但错误”，本章大部分内容都在解释原因。

他的反对意见体现为三个标准，他坚持任何真实的大脑理论都必须满足这些标准，而当时流行的网络一个也没达到：

时间：真实的大脑处理的是快速变化的流；新皮质的信息输入和输出没有任何静态特征。80 年代标准的、由反向传播（Backpropagation）更新权重的三层网络，是在静态的输入输出对上训练的，没有任何代表“刚刚发生了什么”的内部状态。“网络中没有关于不久前发生的事情的历史记录。”
反馈：霍金斯提到了一个解剖学事实，其震撼力远超文字长度：在新皮质与丘脑（Thalamus）之间的电路中，向后连接（从皮质向感官末梢）的数量几乎是向前连接的十倍。每有一根纤维将感官信息上传到皮质，就有十根纤维将信号传回。反馈“同样主导着整个新皮质的大多数连接”。三层前馈网络没有这种结构。反向传播虽然名字里有“反向”，但它只在训练期间流动，且只携带误差信号；一旦模型部署，信息就是单向流动的。这绝不是霍金斯所说的反馈。
物理架构：新皮质被组织成重复的区域层级，每个区域都有相同的六层柱状结构（Column structure）。在霍金斯看来，任何架构与“复杂且分层的大脑结构相比显得平庸”的模型，都不可能像大脑一样工作——无论它在基准任务上表现得多么出色。

当时的大多数神经网络都未能满足这三个标准，但该领域依然停滞于此，因为它们足以产生商业结果。到 20 世纪 80 年代后期，神经网络已开始预测股市波动、评估贷款申请、验证签名。该领域变得富有，却忘记了初衷。霍金斯提到的流行典范是 NetTalk，这是一个学习将英文文本映射到音素序列的网络，“听起来像计算机语音在朗读单词”。它被国家新闻预演为机器学会了阅读。霍金斯对此评价尖锐：“它不会阅读，也不理解，几乎没有实际价值。它只是将字母组合与预定义的某种声音模式进行了匹配。”

本章中用以说明这种错误最生动的比喻是晶体管放大器。霍金斯说，想象你试图理解计算机的工作原理，但你不是研究计算机，而是孤立地研究晶体管。经过多年努力，你发现三个以特定方式连接的晶体管形成了一个放大器。一夜之间，制造晶体管收音机和电视机的行业兴起，许多人发了财，但这没能教给你任何关于计算机实际工作原理的知识。“真实的大脑和三层神经网络都由神经元构建，但除此之外几乎没有任何共同点。”

接着是本章最有趣的自传式插曲，也是书中最具影响力的段落之一。

1987 年夏天，霍金斯参加了一个神经网络会议，看了一家名为 Nestor 的公司的演示。Nestor 为平板电脑构建了一个基于神经网络的手写识别器，授权费高达 100 万美元。多年来一直痴迷于笔式计算的霍金斯立刻警觉起来。

那天晚上他回家彻夜思考，在两天内设计了一个“快速、小巧、灵活”的手写识别器。他的版本没有使用神经网络，也一点不像大脑。这是一个工程方案，解决了 Nestor 包装成研究突破的难题。那个识别器最终成为了 Graffiti 的基础——这是近十年后在第一代 Palm 产品中搭载的文本输入系统。霍金斯补上了完美的冷笑话：“我想 Nestor 后来倒闭了。”

他还指出，同一次会议“激发了我设计手写笔接口计算机的兴趣（最终在十年后诞生了 PalmPilot）”。一次神经网络演示间接播下了种子的公司，最终资助了红木神经科学研究所和这本书的创作。书中没有直说，但时间轴已经说明了一切。

在 Nestor 的插曲之后，本章回到了核心论点：神经网络最深层的问题与经典 AI 一样——两者都将智能视为行为的属性。输出就是度量标准。“受艾伦·图灵启发，智能等于行为。” 霍金斯完全不同意，所用的辞藻与第一章反驳塞尔目标时如出一辙：“行为是智能的表现，但不是智能的核心特征或首要定义。片刻的思考就能证明这一点：你可以躺在黑暗中，仅仅通过思考和理解就能表现出智能。”

在结束前，霍金斯指出了他认为确实做对了一件事的连接主义研究分支：自结合存储器 (Auto-associative memories)。这是一小群神经网络理论家构建的网络，他们以不同的方式连接神经元——将每个神经元的输出反馈到网络的输入中，“有点像给自己打电话”。这种设计的两个属性直接映射了大脑的实际行为。首先，自结合存储器可以从部分或带有噪音的版本中检索出存储的完整模式。霍金斯用了全书最令人难忘的比喻：“这就像你带着吃了一半的棕色香蕉去杂货店，结果换回了完整的绿色香蕉。或者带着一张撕破且无法辨认的钞票去银行，银行职员说：‘我觉得这是一张揉烂了的 100 美元钞票，把那个给我，我给你这张崭新的。’” 其次，在反馈循环中加入时间延迟后，自结合存储器可以存储模式序列——喂它《小星星》的前几个音符，它会返回整首歌曲。他指出这是连接主义研究中极少数认真对待反馈和时间的流派，并预言大脑几乎肯定使用了类似的东西。

本章以一段哲学思考结束，我在第二次阅读时发现它比第一次读时更有趣。

霍金斯认同自己是一个功能主义者 (Functionalist)：认为心灵是组织的属性，而非介质的属性。AI 研究者、连接主义者和他自己都同意这一点。用盐罐代替丢失的国际象棋骑士，它依然是真正的骑士棋子，因为游戏是由功能而非材质决定的。每隔几年，你体内的多数原子就会更换，但你依然是你。如果一个疯狂科学家用功能等效的微型机器替换了你所有的神经元，程序结束后的你，自我感觉应该和进去时一样真实。

功能主义者内部的分歧在于下游：你是否必须模仿大脑的做法，还是可以发明自己的工程路径？AI 支持者持第二种观点——“为什么我们工程师要受限于进化偶然发现的方案？”——并倾向于鲁布·哥德堡 (Rube Goldberg) / 补丁的比喻。大脑是一个拥有数亿年历史、充满进化残余代码的乱摊子，所以应该推倒重来。标准的支撑案例是机翼与螺旋桨（我们并没有通过扇动翅膀来实现飞行）以及轮子与腿（我们并没有通过模仿猎豹来制造地面车辆）。

霍金斯承认这些类比，但划了一条不同的线。他写道，连接主义者“主要还是太胆小了”。他们直觉地感到大脑不是计算机，开始构建受神经元启发的松散网络，然后就停滞不前了，而不是一路推向架构、层级和反馈。本章以其最广为引用的一句话结束：“我们必须从大脑内部提取智能。除此之外没有别的路。”

2026 年对本章的审计比对第一章更犀利。霍金斯的三条标准中有两条已被该领域满足，只是方式出乎他的意料。时间问题通过 RNN、LSTM 解决，最终由 Transformer 并行读取整个序列彻底解决。层级问题通过深度解决——一个 96 层的 Transformer 是层级的，即便这种层级与大脑皮质相比显得均匀且缺乏结构。而霍金斯意义上的反馈——在推理时从高层抽象向下传播到感官预期的持续自顶向下预测信号，而不仅仅是训练时的误差梯度——目前仍然基本缺失。现代注意力机制是动态且双向的，但它并未构建出本章描述的那种持久的、由顶层驱动的世界模型。丘脑-皮质回路中 10:1 的后向与前向连接比例，是目前任何架构都无法企及的数字。另一方面，自结合模式补全现在无处不在——向量搜索和检索增强生成（RAG）本质上就是工业级的自结合存储器，而 Hopfield 风格的网络在 2020 年左右的研究中也经历了小小的复兴。霍金斯提前二十年指出了这一研究路线的重要性，Nestor 公司大概现在还在后悔当年开价太低。

第三章：人类大脑

从这一章开始，本书不再批判他人的理论，而是开始展示自己的基石。本章充满了大量的解剖学知识，这些知识至关重要，因为全书其余部分都将其作为承重结构。这一章有三个乐章：新皮质的物理之旅、弗农·蒙卡斯尔（Vernon Mountcastle）单一算法猜想的引入，以及大量的演示，证明皮质并不在乎喂给它的是哪种感官——模式就是模式。

霍金斯开篇便承认并辩护了自己的“新皮质沙文主义”。批评者会说，你不能只看新皮质来解释智能——丘脑、海马体、脑干、基底核和杏仁核都很重要。他承认在人类智能方面这一点是对的，但划出了一条界线：“我对构建人类不感兴趣。我想要理解智能并构建智能机器。智能机器不需要有性欲、饥饿感、脉搏、肌肉、情感或类人身体。” 如果目标是智能而非生物完备性，那么最值得挖掘的地方就是新皮质。

接下来的物理描述是流行神经科学中最精彩的部分之一。

新皮质是一层厚约两毫米的组织。霍金斯让你叠起六张名片或六张扑克牌来感受实际厚度，每张牌代表皮质的六层结构之一。摊平后，人类皮质层大约有一张大餐巾纸那么大。老鼠的皮质层只有邮票大小；猴子的则像商务信封大小。这三者都拥有相同的六层结构。

人类更聪明，并不是因为我们的皮质层更厚或包含特殊的“聪明”细胞，而是因为我们的皮质层面积要大得多。为了把它装进头骨，进化将它折叠起来，“就像把一张纸揉进白兰地酒杯”。为了分娩这些大头的孩子，人类女性也进化出了更宽的骨盆。一些古人类学家认为这与直立行走是共同进化的。书中充满了这类细节。

一平方毫米的皮质层——大约相当于字母“o”的大小——包含约 10 万个神经元。整个新皮质包含约 300 亿个神经元。典型的锥体细胞（八成皮质神经元属于此类）携带数千个突触。书中给出的总皮质突触工作数值约为 30 万亿，霍金斯称这“显然足以存储你一生能学到的所有东西”。

他引用了克里克的晚年著作《惊人的假说》（The Astonishing Hypothesis）作为哲理总结：心灵是大脑中细胞的产物。没有魔术，没有特殊物质，只有神经元和信息的舞蹈。克里克为了政治正确称其为假说；霍金斯则指出这现在已是事实。

本章的第一个技术举措是确立外观均匀的皮质层具有专门的功能区域。早在功能成像出现之前，人们就知道了这一点，因为局限于特定区域的中风会产生特定的奇异缺陷。

右顶叶受损会导致患者失去对左侧空间的所有感知——甚至包括左侧这个概念。左额叶的布若卡氏区 (Broca's area) 受损会破坏语法，但保留词汇。梭状回 (Fusiform gyrus) 受损会破坏识别人脸的能力，导致患者无法识别自己的母亲、孩子，甚至照片中的自己。

丹尼尔·费勒曼（Daniel Felleman）和大卫·范·埃森（David van Essen）将猕猴皮质划分为几十个此类区域，并证明它们排列在一个复杂的树状层级结构中。视觉层级从 V1 开始，处理最低级的特征——边缘方向、色彩对比、运动、立体视觉的视差——并馈入 V2、V4、IT（存储人脸、动物、工具和身体部位高级视觉记忆的地方）和 MT（专门处理运动）。听觉皮质从 A1 开始，以类似方式上升；体感皮质从 S1 开始。联合区 (Association areas) 接收来自多种感官的汇聚输入——这就是为什么你知道飞在手臂上爬行的视觉和皮肤上的瘙痒感源自同一个原因。运动系统拥有镜像层级，从高级运动规划区下降到 M1，后者向脊髓发送连接并直接驱动肌肉。

霍金斯反复强调一个非显而易见的观点：信息在这个层级中是双向流动的，而且向下的流量大于向上的流量。传统的心理图景——感官信息上传、运动指令下传、整齐的流水线——在关键点上是错误的。他举了一个令人吃惊的例子：“当你朗读时，你的高级皮质区域向你的初级视觉皮质发送的‘向下’信号，比你的眼睛从印刷页面接收到的信号还要多。” 即使在初级视觉皮质层面，自顶向下的预期也盖过了感官输入。如果这听起来不像是在描述 LLM 的先验（Prior）压倒了其上下文窗口（Context window），那它确实就是。

本章的重心在于弗农·蒙卡斯尔 1978 年的论文《大脑组织的一个组织原则》（An Organizing Principle for Cerebral Function）。这篇论文写于蒙卡斯尔在约翰·霍普金斯大学担任神经科学家期间。论文的主张简短而大胆。

无论你看向何处，新皮质的结构看起来都一模一样。视觉皮质像听觉皮质，像运动皮质，像布若卡语言区，几乎像每一个其他区域。解剖学家花了几十年编纂的差异——层厚、细胞密度、连接模式的微小变化——确实存在但非常微妙，“往往微妙到训练有素的解剖学家也无法达成一致”。

蒙卡斯尔的飞跃：既然这些区域看起来都一样，也许它们都在做同样的事情。视觉、听觉和运动控制之间的差异并不是算法的差异。差异仅仅在于每个区域碰巧与什么相连。单一皮质算法，不同的输入。

霍金斯对这一段文字充满了感情。“当我第一次读到蒙卡斯尔的论文时，我几乎从椅子上掉下来。这就是神经科学的罗塞塔石碑——一篇论文，一个想法，统一了人类心灵所有多样且奇妙的能力。” 他称蒙卡斯尔的猜想为“神经科学领域最重要的发现”，并对大多数科学家和工程师要么拒绝相信、要么忽视、要么根本不知道这一点感到惊讶。他用的类比是爱因斯坦的狭义相对论源自对光速的一个直觉反常的观察，或者达尔文询问物种为什么如此相似而非死磕它们的差异。

本章剩余篇幅通过两类证据为蒙卡斯尔辩护：可塑性 (Plasticity) 和 模式可互换性 (Pattern fungibility)。关于可塑性，二十年后的实验依然令人震撼。新生雪貂的大脑可以通过手术重连，使眼睛的信号发送到听觉皮质而非视觉皮质；结果听觉皮质发育出了功能性的视觉通路，雪貂用原本听声的脑组织看见了世界。出生时移植到体感区域的老鼠视觉皮质发育出了触觉。天生耳聋的成年人用原本属于听觉的组织处理视觉信息。天生失明的成年人用视觉皮质（皮质最后端，从未接收过视觉输入的区域）阅读盲文——它自我改造以处理触觉。“显然，没有哪个皮质区域甘愿代表‘虚无’。” 基因铺设了大致的架构并决定了谁连接到谁，但在这一框架内，每个区域的功能由其在发育过程中碰巧接收到的输入决定。

关于模式可互换性，霍金斯提出了一个如果你从未想过就会觉得深刻的观点。大脑在一个黑暗、静默的盒子里；它没有自己的感官；医生戳它你没有任何感觉。你所经历的一切都以动作电位 (Action potentials)——完全相同的电脉冲——在轴突束上传递。视神经携带约 100 万根纤维，听神经约 3 万根，脊髓还有 100 万根用于触觉。顺着每束纤维传下来的脉冲在物理上是无法区分的。你之所以觉得视觉不同于听觉，是因为皮质内部的接线方式，而非信号本身有任何内在差异。“动作电位就是动作电位。你的大脑只知道模式。” 霍金斯指出，视觉尤其“更像一首歌而非一幅画”——眼睛每秒执行大约三次眼跳（Saccades），每次都彻底改变视网膜图像，而你感知到的稳定视觉世界完全是从这些随时间变化的模式中构建出来的。听觉早在半个世纪前就被匈牙利物理学家格奥尔格·冯·贝凯希 (Georg von Békésy) 破译为频率分解器官——嵌入在颞骨（人体最硬的骨头）中的螺旋蜗壳的每一段都在不同的频段振动。触觉也一样：让朋友在你闭眼时把一个小物体（戒指、橡皮擦）丢进你不动的手掌心，你很难识别它；让你的手指移动，你立刻就能知道。“触觉也是一首歌。”

辅助演示是本章最有趣的部分。威斯康星大学的保罗·巴赫-伊-里塔 (Paul Bach y Rita) 构建了一个感官替代设备，将头戴式摄像头的像素映射到人类舌头上的压力点阵列。佩戴该设备的盲人学会了通过舌头“看”。埃里克·魏亨梅耶 (Erik Weihenmayer)——13 岁失明、2002 年成为首位登上珠穆朗玛峰的盲人运动员——在 2003 年尝试了这种舌头设备，自童年以来第一次看到了图像：地板上向他滚来的球、桌子上他伸手去拿的软饮料、一局“剪刀石头布”。他走下走廊，看到了尽头的门口，检查了门和门框，还注意到了上面的标志。“最初体验为舌头感觉的图像，很快就体验为了空间中的图像。” 海伦·凯勒 (Helen Keller) 在既无视觉又无听觉的情况下学会了语言，并成为比大多数感官健全的人更出色的作家。橡胶手错觉显示，如果你看着一只假手以与你的真手（隐藏在屏风后）相同的节奏被抚摸，大脑在几分钟内就会将假手纳入你的身体图景。给一个人一把耙子让他去够物体，耙子本身也会被拉入身体图景。

2026 年工程师对本章的注释是最温馨的。蒙卡斯尔的“多输入单一算法”猜想是神经科学派生出的、在 AI 工程史上最成功的想法，且它以霍金斯可能从未预见的方式得到了印证。 现代 Transformer 的单一架构——相同的算子堆叠、相同的训练过程，无论训练数据是文本、图像、音频、视频、机器人控制、蛋白质序列还是国际象棋棋谱——正是蒙卡斯尔主张在硅基上的实现。我们通过实验发现，同一堆层可以变成“视觉皮质”、“语言皮质”或“音频皮质”，取决于你喂给它什么。模式可互换性在现代系统中体现为 Token 化（Tokenization）令人惊讶的普适性：一旦某种模态被编码成 Token 序列，模型基本上不在乎这些 Token 从何而来。可塑性实验直接映射到了多模态预训练和迁移学习（Transfer learning），你甚至可以用 2026 年的词汇重写霍金斯的这一章而几乎不丢失任何信息。该领域目前尚未从本章吸收的部分是“向下主导的流量”——这种结构性事实：在你的初级视觉皮质中，自顶向下的信号量超过了感官输入。这种不对称性深植于皮质，但尚未内置于任何当前的生产级 AI 系统中。认真对待这一点的实验尚未真正开展。

第四章：记忆

这是大多数读者对本书印象最深的一次认知重塑，也是后续四章赖以建立的基础。论点很简单：新皮质不是计算机。它是一个记忆系统。它并不通过“计算”来得出问题的答案；它通过从存储的模式中“检索”答案。本章用大部分篇幅拆解了这是一种什么样的记忆系统，命名了四个属性：序列存储、自结合检索、不变性表征（Invariant representations）和层级结构。前三个是这里的焦点，第四个留待第六章。

开篇是百步法则 (The hundred-step rule)，这是书中视角最清晰的思想实验之一。

真实的神经元很慢。典型的神经元放电并重置大约需要 5 毫秒，所以单个神经元每秒大约能进行 200 次操作。现代 CPU 每秒能进行 10 亿次。硅基的基本运算速度比脑组织快约 500 万倍。大脑的捍卫者通常反驳说神经元是并行工作的——数十亿个神经元同时放电——这种并行性足以弥补速度缺陷。霍金斯认为并行性论点是错误的，证据就在他最喜欢的这段文字中：

考虑一个人类能毫不费力在半秒内完成的任务：瞥一眼照片，告诉我上面是猫、熊、野猪还是萝卜。在半秒内，进入你视觉系统的信息最多只能穿过 100 个串联的神经元。所以无论大脑在做什么来解决这个问题，它都是在 100 步或更少的步骤内完成的。相比之下，100 条计算机指令几乎不足以在屏幕上移动一个字符。

并行性救不了计算机。如果一项穿越沙漠的任务需要 100 万个顺序步骤，即使你雇佣 1000 个工人，你依然需要 100 万步的时间才能穿过；超过这个点的增加人手毫无帮助。“一台计算机，无论它有多少处理器，运行速度有多快，都无法在 100 步内‘计算’出难题的答案。” 如果大脑是在计算，这在物理上是不可能的。唯一的出路是大脑不在计算，它在查表。“整个皮质是一个记忆系统。它根本不是计算机。”

霍金斯为了让对比更生动，举了接住飞球的例子。对人类来说这轻而易举；对机器人工程师来说这曾是经久不衰的噩梦。

工程师的方法是求解飞球轨迹的抛物线方程。然后再解一组更痛苦的方程，计算在正确时间把手放在正确位置所需的关节角度。随着新感官数据的到来，重复进行这两项计算。这需要数百万个步骤。

大脑不这么做。看到球的瞬间会自动检索出一组存储好的肌肉指令序列，并根据这个球的具体路径和身体位置动态调整检索到的记忆。“接球的记忆并不是编进你大脑的程序；它是通过多年的重复练习学到的，它存储在你的神经元中，而不是计算出来的。”

水床类比是他最喜欢的、用来说明调整步骤如何工作的例子。坐下水床上，上面的枕头和其他人会自发地移动以适应你，并没有中央控制器在计算调整。水和床皮的物理特性完成了这一切。皮质则对信息执行类似的分布式操作。

属性一：模式序列

皮质记忆的第一个非计算机特性是它将模式存储为序列。故事只能按顺序讲；无论你说话多快，你都无法一次性讲完所有事情。记忆的工作方式相同。试着倒着背字母表。 你做不到，不是因为字母不在脑子里，而是因为你从未反向存储过它们。电话号码、一年中的月份、一周的天数——全部编码为序列。试着一次性哼出《彩虹之上》(Somewhere Over the Rainbow) 的所有音符。 你做不到。一首歌只存在于时间的展开中，找回它的唯一方法是按照最初听到的时间模式向前播放。

序列属性一直延伸到最简单的感官记忆。霍金斯提出了一个关于触觉的非常直观的观点：“如果趁你睡觉时把你的手埋在一桶碎石里，当你醒来时，除非你移动手指，否则你不知道自己在摸什么。” 触觉纹理是作为皮肤上一系列压力和振动模式存储的；静态模式本身是不够的。他坦言，在观察了自己几天后，他发现自己洗完澡用毛巾擦干身体的揉、拍和姿势顺序几乎每次都一模一样——经过一次“愉快的实验”，他发现他的妻子也是如此。试着换个顺序，你可以强迫自己做，但只要注意力一分散，你就会跳回习惯的序列。记忆存储在神经元之间的突触连接中。在任何时刻，只有极小一部分突触是活跃的；思考就是在这个巨大的存储空间中的轨迹，沿着学到的序列转换，从一组活跃神经元移动到下一组。“真正随机的念头是不存在的。记忆检索几乎总是遵循联想的路径。”

属性二：自结合检索

第二个属性是第二章引入并在此充分论证的。自结合存储 (Auto-associative memory) 意味着部分或扭曲的输入可以检索出完整的存储模式。你看到孩子的鞋子从窗帘后露出来，你的大脑就构想出了整个孩子。你在公交站看到灌木丛后露出半个身子的人，你的大脑补全了整个人——补全得如此完整，以至于你可能根本意识不到自己在推断。在交谈中，你的大脑从嘈杂环境中听取大约一半的单词，并从上下文中重构其余部分；我们经常听不到实际说了什么，而是听到了我们预期会听到的话。“有些人会大声补全别人的句子，但在我们的脑海里，所有人都在不断这样做。不仅是句尾，连句中和句首也一样。”

本章中最具文学色彩的例子是马塞尔·普鲁斯特的《追忆似水年华》——小说开篇写到了玛德琳蛋糕的味道，普鲁斯特由此展开了上千页的回忆。一个感官细节检索出了整个记忆序列。自结合检索正是霍金斯认为皮质无时无刻不在做的事情：“每个功能区域本质上都在警惕地等待熟悉模式或模式碎片的进入。” 当碎片到达时，完整的模式亮起——序列中学习到的下一个模式也就此就绪。“进入大脑的输入自结合地链接到自身，填补当下；并自结合地链接到通常接在后面的内容。我们称这种记忆链为‘思考’。” 它的路径不是确定的，我们也不完全受控。

属性三：不变性表征

第三个属性是最重的，也是在本书其余部分出力最多的。计算机存储器以完美的忠诚度存储信息——一个字节就是你写入的那个字节，即使一比特的差异也能导致程序崩溃。皮质记忆不这么工作。大脑并不精确记得它看到或听到的东西。它记得的是世界中重要的关系，而独立于细节。经典例子：拿一个由黑白点组成的人脸，存储在人工自结合存储器中，然后将每个点向左移动五个像素。人工存储器将完全无法识别这个新模式。而你我甚至不会注意到这种变化。“如果模式被移动、旋转、缩放或以其他一千种方式变形，人工自结合存储器就会失效，而我们的大脑处理这些变化却游刃有余。”

书中点缀着具体的演示。你可以拿着这本书一百年，落在你视网膜上的光线模式从未有过一刻是完全相同的。然而你从不怀疑你拿着的是“同一本书”。你在两英尺外、二十英尺外、侧脸、微笑、打哈欠、阴影下、或是“角度奇特的迪斯科灯光”下都能认出朋友的脸。每一种视角，撞击你视网膜的光线模式都是唯一的。

霍金斯指向了直接的神经学证据。如果你从 V1 细胞中记录，活动模式随着每一次眼跳和每一次位置移动而改变。但如果你从皮质层级中高几级的人脸识别区记录，你会发现稳定性。只要人脸在视野内的任何地方，无论大小、位置、方向、缩放或表情如何，同一组细胞都会保持活跃。“这种细胞放电的稳定性就是一种不变性表征。” 本章直言不讳地指出，构建此类表征的工程问题“依然是所有科学领域最大的谜团之一”。这句话在书出版时是真的，并在之后近十年里依然是真的。

这个问题有着古老的渊源。柏拉图在 23 个世纪前就纳闷，既然现实世界中的每个圆都是不完美的，我们如何能拥有完美圆的概念？既然我们看到的每条狗都不同，我们如何能有稳定的“狗”的概念？他的回答是“形式论（Theory of Forms）”——在超越平面上的固定永恒思想，我们的灵魂在出生前就已知晓。霍金斯表现得很温和：“从现代视角看，这很荒谬。但如果你剥离那些高深的形而上学，你会发现他真正谈论的是不变性。他的解释系统大错特错，但他直觉地感到这是我们可以问出的关于自身本质的最重要问题之一，这直觉正中靶心。”

接着，他将不变性的想法席卷了每种感官。触觉：伸手进汽车手套箱摸太阳镜；任何手指的任何部分都能在框架的任何位置找到它，无论眼镜怎么放。“只要任何部位在眼镜的任何部分移动一秒钟，就足以让你的大脑识别它们。” 感觉运动：把钥匙插进汽车点火孔——座位、身体、手臂和手每次的位置都略有不同，但对你来说感觉是一样的，因为大脑存储了不变性。机器人需要每次处于完全相同的姿态，换辆车就得重新编程。运动：你的签名是一个不变的程序，无论你用细笔精雕细琢，还是像约翰·汉考克 (John Hancock) 那样挥毫，或是在空中用肘部划拉，甚至是“用脚趾夹着铅笔笨拙地写”，都能产生可辨认的标记。音乐：你能在任何调子上听出《彩虹之上》。你从朱迪·加兰在《绿野仙踪》里的降 A 调演唱中学到了它，但钢琴弹奏 D 调依然是同一首歌——尽管每一个音符都变了。你的记忆存储的是音程，而非绝对音高：“升八度，接着降半音，接着降大三度。” 朋友的脸也是同一种表征：相对尺寸、相对颜色、相对比例——是空间音程而非音高音程。

本章的最后一击是：存储不变性记忆正是皮质能够对不断变化的世界做出具体预测的原因。

霍金斯用了一个寓言来完成这一推导。现在是 1890 年，你在美国西部的一个边境小镇。你的爱人正从东部坐火车来找你。没有公布的时间表；火车似乎随机来去。几周来你坚持记日志，结论是它们无法预测。然后你发现了一个结构：东行火车总是在西行车离开后四小时到达。四小时的间隔是不变量；绝对时间不是。在她到达的那天，你看着西行车离开。四小时后，你走向车站接她。

大脑不断这样做。为了预测熟悉歌曲的下一个音符，皮质将其对音程的不变性记忆与刚刚听到的特定音符结合起来。音程“升大三度”加上上一个音符“C”，产生了预测音符“E”。为了预测陌生光线下朋友脸庞的下一个瞬间，皮质将不变的人脸结构与当前感知的方向和光线结合，在眼睛看过去之前就填补了细节。“记忆存储、记忆检索和记忆识别都发生在不变形式的层面上。”

本章以向下一章的接棒总结结束：“本章讨论的皮质记忆的三大特性（存储序列、自结合检索和不变性表征）是根据过去记忆预测未来的必要成分。在下一章中，我提出预测是智能的精华。”

2026 年工程师的审计在这里比之前任何一章都更犀利，因为霍金斯的三大属性在今天我们交付的架构中都有直接对应物。

序列存储是 2017 年以来每个成功生成式模型的核心设计选择。注意力机制（Attention）是一种检索相关过去 Token 的机制；下一个 Token 预测（Next-token prediction）正是霍金斯描述意义上的序列补全。自结合检索在本质上就是 RAG、向量搜索和 Key-Value 注意力：产生查询，检索匹配模式。不变性表征就是学习到的嵌入（Embeddings）。将人脸或句子映射到固定维度向量的全部意义，在于该向量应在姿态、光线、改写或字体变化下保持稳定；表面变化被投影出去而非被存储。

百步法则是没人谈论的部分，但它可以说是本章中最具先见之明的预测。一个在 50 毫秒内回答“这是猫还是野猪”的 Transformer 并不是在符号 AI 意义上进行“计算”。它是在通过一个固定深度的模式匹配器进行单次前馈（Forward pass），这比该领域通常愿意承认的更接近“从记忆中检索答案”。霍金斯对皮质记忆的架构设定，在惊人的程度上成为了自监督表征学习后来真正产生的规格。他只是无法预见这种相似性会如此字面化。

第五章：智能新框架

这是揭示书名含义的一章，也是书中情感最鲜活的一章。开篇是霍金斯坐在办公室里，那是 1986 年 4 月，他的伯克利阅读计划进行到一半，正纠结于一个无法释怀的问题：如果大脑不产生行为，它在做什么？ 信息进入大脑，内部发生了大量工作，但大多数时候没有任何可观察的结果。你可以静静坐着，理解你读到的内容，没有任何公开行动能证明你理解了——这正是塞尔的中文房间旨在否定的。那么，内部究竟发生了什么？

当霍金斯问自己，如果房间里出现了一个新物体——比如一个他从未见过的蓝色咖啡杯——会发生什么时，灵光一现的时刻到来了。答案是脱口而出的：它会引起他的注意。他不必刻意检查它是否属于这里；“不属于”的感觉会自动浮现。在这个看似平庸的答案之下，是支撑全书后续内容的认知：为了让这种不属于感浮现，他的大脑内部必须已经对应该出现的东西做出了成千上万个微小的预测——桌子中间的电脑、右角的台灯、原处的词典、当前时间对应的阳光角度、窗户是长方形的以及墙壁是垂直的。这些预测都在静静地得到满足。蓝色杯子违反了其中之一，这种违反而产生的体验他称之为“注意力”。他写道：“我们的所见所感，是感官所得与大脑记忆驱动的预测之结合。”

几分钟后，他在同一间办公室构想的思想实验——著名的改造门实验——至今仍是“大脑本质上是预测引擎”最清晰的论证。“假设当你外出时，我溜进你家，改变了关于你房门的某些东西。” 可能的改变清单列了整整一段：把把手移动一英寸，把圆形把手换成拇指插销，把黄铜换成铬，把实木换成空心（反之亦然），让铰链变得刺耳干涩或顺滑无阻，加宽或缩窄门框，换个颜色，在猫眼位置加个门环。“我可以想象出一千种你并不知情的改变。” 当你回家时，你几乎瞬间（最多几秒钟）就会察觉到不对劲。为什么？AI 工程师的数据库方法——存储门的每一项属性并在进入时对比——在表面上看就是不可信的：属性列表无穷无尽，你得为遇到的每个物体都存这么一份表，且神经元速度太慢，无法以此执行数据库查询。“在你进门时，通过这种方式察觉变化需要花 20 分钟而不是两秒钟。”

“解读你对改造门反应的唯一方法是：你的大脑在每一时刻都对预期看到、听到和感觉到的东西做出底层感官预测，并且是并行进行的。” 视觉区域预测边缘、形状、位置、运动。听觉区域预测音调、声源方向、门发出的声音模式。体感区域预测触觉、纹理、轮廓、温度。“预测”意味着将要感知门的神经元在真正感知它之前就已变得活跃。当预测满足时，你穿门而过，甚至不知道预测曾发生过。当其中任何一个被违反——把手太低、门太轻、插销不在原位——错误就会升至注意力层面。“正确的预测带来理解……错误的预测带来困惑，并促使你付出注意力。”

接着是全书一直指向的核心结论句：“预测不只是大脑做的众多事情之一。它是新皮质的首要功能，也是智能的基石。皮质是一件预测器官。”

霍金斯诚实地交待了传承。他并没有发明“预测至关重要”的想法；他将自己置于一个传统之中。

名单包括：D.M. Mackay (1956)，主张智能机器应具有旨在“匹配接收内容”的“内部响应机制”；纽约大学医学院的 Rodolfo Llinas，他在 2001 年的著作《漩涡中的我》（i of the vortex）中称预测未来的能力是“所有全球大脑功能中最终极、最通用的功能”；布朗大学的 David Mumford、华盛顿大学的 Rajesh Rao 和波士顿大学的 Stephen Grossberg。此外还有整个贝叶斯网络分支，以 18 世纪英国牧师及统计学先驱托马斯·贝叶斯 (Thomas Bayes) 命名。

霍金斯认为，当时缺失的是将这些散落的碎片粘合进一个以皮质实际解剖结构为中心的统一框架。这正是本书正在做的工作。

本章的中段是一个长篇演示：在你的感觉中，你所做的几乎所有事情本质上都是预测。 霍金斯带读者参观了他自己做煎饼的早晨：他看都不看就伸手去拿柜台下的柜门，大脑知道把手摸起来是什么感觉，在哪里，什么时候摸到。他拧牛奶盒，预期它会转动并脱开。他拧煎锅旋钮，预期它会稍微顶进去，然后带着某种阻力转动，并在大约一秒钟后发出瓦斯火焰轻柔的“噗”声。“在厨房里的每一分钟，我都做出了几十次或上百次动作，每一次都涉及许多预测。我知道这一点，是因为如果任何一个动作的结果与预期的不同，我都会注意到。” 论证最简洁的版本是楼梯踏空：你的脚越过大脑预期着陆点的瞬间，在任何传感器告诉你任何信息之前，你就已经知道出错了。脚还没感觉到任何东西；预测只是没被满足。“由计算机驱动的机器人会幸福地摔倒，完全意识不到出了什么问题。”

预测在每个层面、每种感官中都在发生，且往往是概率性的。当你听一张熟悉的专辑时，在下一首歌开始前的几秒钟，你的脑海里就已经响起了前奏——而把专辑设为随机播放会产生一种“愉快而轻微的不确定感”，因为对下一首歌的预测被证实是错的。“一只大黄...” 在说话者还没说完之前就激活了代表“狗”的神经元（对于英语使用者；不懂该语言的读者则没有此类激活）。“请把那个...递给我” 建立了对“盐”、“胡椒”或“芥末”的并行预期，若听到的是“人行道”则会由于惊讶而受挫。即使是一首你从未听过的音乐也会触发对规律节拍、重复节奏、乐句完成和主音收尾的预测——你瞬间就能察觉到违背之处。

本章几个最难忘的例子侧重于预测的失败而非成功。

当纽约市停止运行高架火车时，周边公寓的居民半夜报警说有东西吵醒了他们——那是本该在该时段经过的火车的缺席。远处电钻声是你只有在它停止时才会意识到的东西。

每只眼睛都有一个视神经离开视网膜的小盲点，你感知不到空洞，是因为视觉系统进行了填补。闭上一只眼盯着一张土耳其地毯或樱桃木桌面的纹理，纹理看起来是无缝的，尽管整个木结不断在视网膜视野中消失。填补无处不在，不只是盲点。在放大镜下，一张躺在岩石上的漂流木照片的边界是模糊的。在正常观察距离下，边缘看起来很锐利，因为皮质正在填补它预期在那里的东西。“你‘感知’到的并不是 V1 看到的。”

最令人不安的演示是双鼻实验。你的眼睛注视着一张脸的一只眼，然后跳到另一只眼，偶尔跳到鼻子、嘴巴或耳朵，一秒钟三次。每次注视都应该是一次冲击——眼跳每次都会激发 V1 中完全不同的细胞——然而你体验到的是一张稳定的脸。现在想象你遇到了一个在原本应该是第二只眼睛的地方长了第三只鼻子的人。你的眼睛注视第一只眼，然后跳到预期的第二只眼位置，结果发现了一个鼻子。你的注意力瞬间被唤醒。为了让这一幕发生，你的大脑必须对下一次眼跳将落在什么上面做出了预测。同样的逻辑解释了为什么除非椅子开始往后溜，否则你不会注意到自己的座位；为什么你手里的书页在你折坏它之前不会让你惊讶；为什么世界显得稳定：大脑在不断针对现实验证其模型，而不是在重建模型。

本章的关键一步是主张相同的机制可以一路向上扩展。根据蒙卡斯尔的观点，如果每个皮质区域运行相同的算法，那么发生在感官皮质的预测工作也同样发生在最高抽象层级。

霍金斯举了一个例子。为了预测妻子今晚会提醒他倒垃圾，他的皮质将关于她的不变性记忆与当前观察结合。不变性记忆：她过去说过这话，今天是周五，垃圾桶必须在周五晚上推出去，他上周没按时做。当前观察：她的表情。从中，他的皮质产生了一个关于她将要说什么的具体预期。他可能不知道确切的措辞，但他知道大意。

“高等智能并非一种不同的过程。它从根本上依赖于相同的皮质记忆与预测算法。” 他顺便指出，IQ 测试字面上就是预测测试：完成数字序列、完成类比、给出物体的三个视图选出下一个。科学本身就是假设与验证——慢动作的预测。产品设计预测消费者想要什么。“智能是通过记忆和预测世界模式的能力来衡量的。”

本章以一个证明整个框架合理性的进化故事结束。爬行动物在拥有新皮质之前很久就拥有复杂的行为了：“鳄鱼拥有和你我一样复杂的感官。它拥有发育良好的眼睛、耳朵、鼻子、嘴巴和皮肤。它能进行复杂的行为，包括游泳、奔跑、躲藏、狩猎、伏击、晒太阳、筑巢和交配。” 哺乳动物进化时改变的是增加了一个记忆层——“新皮质”（Neocortex），拉丁语字面意思就是“新皮层”——它接入感官流并存储过去发生事情的模式。人类皮质在地质尺度上是最近才出现的；仅在几百万年前才剧烈扩张，而且“我们通过增加通用皮质算法的更多元素而变得聪明”，而不是发明了一个新算法。著名的会说话的老鼠思想实验承载了这一论点：在熟悉迷宫中穿行的拥有小皮质的老鼠，不是通过滑翔到奶酪那里来“看到”未来，而是通过识别拐角、检索上次发生事情的存储序列，并构想走廊尽头的奶酪。“如果我在这里右转，我知道接下来会发生什么。走廊尽头有一块奶酪。我在想象中看到了它。” 这就是皮质为爬行动物行为买到的：一扇通往极近未来的窗户。

皮质随后向两个方向进化。首先，它变得更大，存储了更丰富的记忆。其次——尤其是在人类身上——它开始从旧脑手中接管运动控制。老鼠的运动皮质很小，损伤它影响有限；损伤人类的运动皮质则会导致瘫痪。人类皮质的前半部分（朝向额头）不成比例地增长，承担了大部分高级规划、思考和运动指令，通过一条被称为中央沟的大裂缝与后半部分感官区隔开。在这里，霍金斯提出了全书最扣人心弦的一句话。当你把手臂移到脸前时，你可能认为大脑先移动手臂，然后预测会看到什么。他认为这完全反了。“我相信皮质预测到了会看见手臂，而正是这个预测导致了运动指令去实现这个预测。你先思考，这导致你采取行动去实现你的想法。” 在这个框架下，行为是预测的下游——预测是目标，运动指令则是为了满足它而做的。海豚虽然拥有巨大但只有三层的皮质，被作为一个极限案例提及：它们可能拥有丰富的关于海洋的自传式记忆，可能识别个体海豚，但它们的皮质没有像我们一样接管它们的行为。

本章最后回到了塞尔。如果中文房间包含一个能够预测下一个字符将是什么、故事接下来的走向的记忆系统，那么我们可以自信地说房间理解中文。“我们现在可以看到艾伦·图灵错在哪里了。预测，而非行为，才是智能的证明。”

2026 年工程师的注释当你读完本章时基本已经成型了。自 2017 年以来，每个成功的生成式模型都建立在霍金斯置于其框架核心的那个目标之上。下一个 Token 预测是该领域收敛到的损失函数（Loss function），部分原因是除此之外没有别的在大规模下表现得同样好。这种一致性如此字面化，几乎到了令人尴尬的地步。

但差异依然真实。霍金斯的图景是在每个皮质层级都有连续的预测，自顶向下的预测信号在意识体验的每一刻都向下奔跑与自底向上的信号汇合。现代 Transformer 并不做此类事情。它们在输出端预测下一个 Token，而在中间层没有类似的预测流。改造门实验描述的是一个其中间表征本身就在并行进行预测的系统，这并不是 Transformer。

在 2026 年，那些明显更擅长长程推理和工具调用的前沿模型所做的事情，更接近改造门的图景。它们生成显式的预测（“在下一次动作后我预期看到 X”），将其与观察结果对比并更新。但它们是在草稿纸的文本层面上做的，而不是在网络内部的激活层面上。我认为霍金斯的框架会预言：下一次架构层级的突破将来自于将这种对比循环推入层级本身。二十二年前，目标是对的，而具体的实现位置仍在建设中。

第六章：皮质如何运作

这显然是全书最长且技术细节最暴露的一章。这也是霍金斯从一个框架（“皮质是一个记忆-预测引擎”）迈向一个可证伪假设（“这是一个真实的皮质片断如何实现该引擎”）的地方。

他以拼图类比开场。由于没有自顶向下的框架，神经科学被迫自下而上地组装大脑。拼图有成千上万块。许多块有两种解读方式。许多块最终会被证明根本不属于这块拼图。每个月都有新的碎片寄到并替换旧的。更糟的是，“你根本不知道最终结果会长什么样。” 霍金斯的观点是：记忆-预测模型可以扮演包装盒上参考图的角色。一旦你知道寻找什么，现有数据就开始自我组织。

他提到了加州理工学院的 Gabriel Kreiman 和 Christof Koch，以及 加州大学洛杉矶分校的神经外科医生 Itzhak Fried。他们发现了一些细胞，只要患者看到比尔·克林顿的照片就会放电——这正是他的框架所预测的高级不变性表征。他在本章的一个明确目标就是解释一个“克林顿细胞”是如何诞生的。

嵌套的世界，层级的皮质

霍金斯首先重构了视觉皮质的教科书级标准图景。经典故事是一个四步流程：V1 探测边缘，V2 将其组合成形状，V4 构建物体，IT 在顶层实现不变性。霍金斯列出了三个问题。首先，如果蒙卡斯尔的单一算法主张是对的，为什么不变性只在 IT 出现？其次，V1 的两个不相邻区域没有直接连接，却都参与识别同一张脸——它们必须在并行做同样的事。第三，高级区域从多个低级区域接收汇聚输入，但 V1 和 V2 并不接收，这违反了均匀算法假设。他提出的重构方案：V1、V2 和 V4 不应被视为单一区域。每个都是由大量小型子区域组成的集合，每个都在较小的视觉切片上做着和 IT 同样的工作。“每个区域都形成不变性表征。” 不变性并不是神奇地出现在顶层的属性；它是皮质的基本操作。

本章最有用的宏观论点是：皮质被构建为层级，是因为世界本身就是层级的。音乐是音符嵌套在音程中，嵌套在乐句中，嵌套在旋律中，嵌套在专辑中。书面语言是字母嵌套在音节中，嵌套在单词中，嵌套在分句中，嵌套在句子中。你的社区街道包含房子，房子包含房间，房间包含墙壁、门窗，每个都由更小的部件组成。“世界中所有的物体都由始终一致出现的子物体组成；这正是物体的定义。” 大脑被设计用来发现并存储这种嵌套结构，因此其记忆被映射到一个匹配的层级：大规模的关系存储在顶层，小规模的细节存储在底层。这就是为什么当你的眼睛注视着窗户插销时，你依然知道你在家里的客厅看着窗户——高级区域维持着大的上下文，而低级区域处理快速变化的细节。

序列中的序列

皮质区域的工作是学习它从下方看到的模式序列，给每个学到的序列一个名字，并将该名字上传给上一级区域。名字是一组细胞，只要序列在播放，它们的集体放电就会保持恒定。高级区域只看到这个稳定的名字——在整首歌期间是一个恒定的信号——而低层区域则看到快速变化的音符。随着层级的上升，序列坍缩为名字，名字坍缩为名字序列，稳定性不断累积。这就是不变性表征形成的方式：不是从 V1 到 IT 的一次飞跃，而是步步为营、序列接序列，每一层都抹平了下一层的波动。

沿着层级向下，同样的机器反向运行。顶层一个稳定的不变模式在下一级被展开为一个序列。

霍金斯举了一个他肯定排练过的例子：葛底斯堡演说。他在七年级背过，几十年后依然能复述。语言层级的顶层存储了该演讲的单一模式。下一级区域将该模式展开为短语序列。再下一级将每个短语展开为单词序列。在最低的运动层，每个音素被展开为肌肉指令序列。同一套顶级模式可以在运动皮质处产生分支。如果你决定打出这段演讲而不是说出来，单词会展开为字母和手指指令而非音素和口腔指令。

“注意，你不需要背两次演讲，一次说话用一次写字用。” 霍金斯认为，这种跨层级的共享与重用正是大脑如此高效的原因。嵌套序列的层级允许相同的底层对象——单词、音素、字母——参与到任意多级的高级序列中。

支撑类比是军事指挥链。一位将军说“把部队移到佛罗里达过冬”，指令通过层级展开为越来越具体的行动：准假、运输、到达准备，然后是成千上万名士兵采取数万次具体动作。汇报则沿链条向上逐级汇总；将军得到的是“移师佛罗里达一切顺利”。但如果发生了下属无法处理的意外，问题就会逐级上报，直到有人知道该怎么办。霍金斯说，这正是皮质在面对意外输入时的表现。

将模式分类为一组离散的“桶”是皮质区域的另一个基本操作。霍金斯通过 rrgpog 例子使其变得具体。想象将彩色纸片分类到十个桶里——绿、黄、红、橙、紫等等。有些纸片很容易，有些则模棱两可（介于红橙之间）。你必须做出决定。现在假设你也注意到序列“红-红-绿-紫-橙-绿”（称之为“rrgpog”）不断出现。一旦你知道了这个序列，在“红-红-绿-紫”之后出现的一张模棱两可的纸片就可以自信地被称为“橙色”，因为序列预测了它。分类和序列学习是互补的：分类给了你字母表，序列给了你单词，一旦你有了单词，你就可以用它们来消除嘈杂字母的歧义。他顺便指出，这正是你阅读手写或模糊文本时的情形：脱离上下文的单个字母通常难以辨认，但在已知的句子中它们会瞬间清晰。

皮质区域内部

结构之旅从一个硬币大小的皮质区域开始。它有六层厚（就是第三章提到的六张名片），由成千上万个垂直穿过各层的皮质柱组成。每一层都有自己的细胞密度和类型：第 1 层几乎全是轴突，细胞极少；第 2、3 层密布着锥体神经元；第 4 层有星状细胞；第 5 层包含普通锥体细胞加上一类特大的锥体细胞；第 6 层有其独特的类型。微柱 (Microcolumns)——每个约 100 个神经元，全部源自胚胎发育期间从内脑腔向外迁移的单一前体细胞——在垂直方向上紧密连接。人类皮质有“几亿个微柱”。霍金斯提供了一个难忘的视觉构想：想象一个发丝粗细的微柱；将数千根这样的发丝剪成小写字母 i（不带点）的高度；将它们像密实的刷子一样并排排列；在顶部铺上一层长长的平行发丝，代表第 1 层的轴突。蒙卡斯尔在 1979 年提出，皮质柱是皮质的基本计算单元。 霍金斯修正道：皮质柱是预测的基本单元。为了让皮质柱预测它何时应该活跃，它需要知道其他地方发生了什么——因此出现了一个惊人的事实：皮质柱内细胞 90% 以上的突触来自柱外细胞。

该结构的信息流有三个回路：

向上：来自低级区域的前馈输入汇聚在第 4 层，由第 4 层激发该柱其余部分向第 2、3 层移动。第 2、3 层随后将轴突伸向下一级高级区域的第 4 层。
向下：第 6 层细胞投射到下级区域的第 1 层，轴突在那里长距离横向铺开。下级区域第 2、3、5 层的细胞在第 1 层有树突，并被这些扩散的自顶向下信号激发。
延迟的丘脑反馈：大型第 5 层细胞投射到非特异性丘脑，后者投射回许多区域的第 1 层。这为自结合存储器学习序列提供了所需的延时信号。

霍金斯用一句话总结了这种架构：进入第 1 层的输入中，一半来自邻近皮质柱和区域的第 5 层细胞——代表刚刚发生了什么；另一半来自层级更高区域的第 6 层细胞——代表当前听到的是哪首歌。按照这种说法，第 1 层同时承载了“我们在歌的什么位置”和“这是哪首歌”。这正是一个皮质柱在预测它何时放电时需要知道的信息。

霍金斯提出了四个机制问题，并分别为每个问题提出了候选机制：

分类：每个柱的第 4 层细胞通过投票决定输入属于哪个“桶”。抑制性细胞让一个柱在邻近区域胜出。
序列学习：当一个柱被第 4 层激活时，第 2、3、5 层的细胞放电。它们的第 1 层突触随后针对第 1 层中当前活跃的任何信号进行强化。经过足够的重复，这些第 1 层突触变得足够强，可以在没有底层第 4 层输入的情况下激发该皮质柱。该柱开始预期即将到来的输入并放电。在这个框架下，这就是神经层面的预测：皮质柱在被底层驱动之前就开始放电。
形成恒定名字：霍金斯为两类细胞提出了特定角色。第 2 层细胞在学习过的序列播放期间保持开启——即“名字细胞”。当皮质柱意外变得活跃时，第 3b 层细胞放电——即“意外输入细胞”。当预测满足时，第 3a 层抑制 3b。这种组合产生了上一级区域所需的恒定模式。
从不变性记忆产生具体预测：皮质将自顶向下的不变性预测与自底向上的部分输入结合，寻找交集。霍金斯以音程 D-A 为例：高级区域预测“预期一个五度音程”。这激活了所有代表五度的皮质柱（C-G、D-A、E-B 等）的第 2 层细胞。自底向上的输入则说“上一个音符是 D”，这给所有包含 D 的皮质柱（D-E、D-A、D-B 等）提供了第 4 层部分输入。两个信号重合的唯一皮质柱就是 D-A。该柱中的一个第 6 层细胞放电，产生了对下一个音符 A 的具体预测。霍金斯想到的思想模型是两张打孔的纸：将一张叠在另一张上面，对齐的孔就是活跃的皮质柱。Stephen Grossberg 称之为“折叠反馈”；霍金斯更喜欢叫它“想象”。

感知与行为是一回事

本章主张，运动控制和感官预测不是分开的系统，而是同一套机器的不同视角。视觉皮质区域（如 V2 和 V4）的第 5 层细胞投射到大脑中移动眼睛的部分——这意味着视觉皮质帮助决定眼睛下一步看向哪里。运动指令本身就是运动层级顶层的不变性表征，它展开为底层的特定肌肉指令，这完全镜像了感官的展开过程。当 IT 识别出“鼻子”，而面部序列中的下一项应该是“眼睛”时，仅仅切换到“眼睛”的不变性表征就会向下级联产生一次特定的眼跳——且这次眼跳的大小和方向都恰好符合面部当前的位置。“思考序列中的下一个模式会导致对你接下来的体验产生级联预测。随着级联预测的展开，它生成了履行预测所需的运动指令。思考、预测和行动都是通过皮质层级向下移动的序列展开的一部分。” 这是本章对第五章论点的最明确表述：“目标导向的行为是机器人的圣杯。它被内置于皮质的纤维之中。”

这种图景的另一面是失败时的感觉。当你走过一个熟悉的房间时，大多数预测在低层就得到了满足，错误从未上升太远。当你走下一架飞机进入一个陌生的国家时，错误会高速飙升——汽车靠错的一侧行驶，货币很奇怪，找厕所耗尽了你所有的皮质能量。 霍金斯给出的实用建议自从我第一次读到就一直铭记在心：“在异国他乡行走时，不要试图排练演讲。” 皮质无法分身。另一个生动的演示是点阵图中的斑点狗。起初你看到的是噪音。你的眼睛扫描，错误冲上层级，顶层尝试各种假设，这些假设冲回底层并与底部冲突。困惑就是没有一致预测的状态。然后突然间，在不到一秒的时间里，正确的顶级预测一路传播到底部——咔哒、咔哒、咔哒、咔哒——斑点狗跃然而出。这就是“顿悟”时刻。它并不是新的感知碎片；它是终于获胜的新预测。

顶层的海马体与向上的备选路径

本章最令人惊讶的后期反转是海马体 (Hippocampus) 的地位。经典观点将其视为一个独立的记忆结构，存储新记忆并慢慢将其转移到皮质。霍金斯承认他多年来也没搞明白它。

直到 2002 年底，他在红木神经科学研究所的同事布鲁诺·奥尔绍森（Bruno Olshausen）指出，海马体在结构上是新皮质的顶层。它坐落在皮质金字塔的巅峰，而不是在它旁边。重构就此就位。

每个皮质区域都试图将输入解释为它所知道的序列的一部分。如果可以，它就不向上传递细节，而是传递一个恒定的名字。如果不行，意外输入就会进一步向上传播。真正新奇的模式会不断升级，一个区域接一个区域，直到到达顶端——海马体。海马体存储真正新奇的东西。

大多数日子里你会遇到许多真正新奇的事：报纸上的一个故事，一个第一次见的人，通勤路上的一场车祸。这些都进入了海马体，在那里它们要么被转移回皮质（通过重复接触或重复思考），要么最终丢失。这一框架解释了霍金斯承认的一种体验：随着年龄增长，他记住新事物的难度越来越大，因为对他来说真正新奇的事情越来越少了。他的孩子记得看过的每一场戏；他不记得，因为每场新戏都已经符合了他的皮质对过去戏剧的记忆。“你知道得越多，记得就越少。”

本章以由 纽约州立大学石溪分校的 Murray Sherman 和威斯康星大学医学院的 Ray Guillery 确定的另一条穿过丘脑向上的路径结束。这条路径可以被选择性地开启，霍金斯推测这就是细节关注的机制。例子：瞥一眼 imagination 这个词，你看到的是单词；关注中间的字母 i，你看到的是字母；关注 i 上面的点，你看到的是点——全部来自同一个 V1 输入。同样的机制解释了为什么一张熟悉脸庞上鼻子上一个奇怪的记号会捕捉你的注意力；解释了为什么你忍不住盯着畸形看；也解释了为什么你阅读时有时注意不到错别字。

本章还对反馈做了一次低调的辩护，值得关注。几十年来，神经科学家将皮质反馈视为“调制（Modulatory）”信号——一种缓慢的背景信号，而非认知的承重结构。霍金斯从三点论证这是错的：如果你不接受预测的角色，就没有理由关注反馈；反馈信号确实分布在第 1 层的广大区域；且曾经认为远离神经元胞体的突触影响微弱。但近期的研究表明，由于薄树突上的突触可以充当巧合探测器 (Coincidence detectors)——在同一根薄树突上、极小的时间窗口内有两个突触放电，会产生巨大的胞体效应，尽管每个突触本身由于太远而微不足道。该框架需要精确的自顶向下反馈，而新的神经元模型正好允许这种精确性。“事后看来，说神经元上数千个突触大多只起调制作用，简直是愚蠢。”

2026 年工程师的审计

本章是霍金斯暴露最充分的地方，他的框架在这里得到了最不均匀的验证。

模型的概念形状是对的。预测、与输入对比、只有预测失败时才向上传播误差、学习预测所需的条件——这正是 2017 年至 2026 年间交付的每个成功自监督系统的形状。“坍缩为名字的序列，再展开回序列的名字”本质上就是 Transformer 残差流（Residual stream）所做的事情，Token 取代了皮质柱的名字，注意力机制取代了第 1 层的路由。Kreiman、Koch 和 Fried 发现的“克林顿细胞”已被无数特征方向（Feature direction）实验所印证，证明 Transformer 激活中的单个神经元（或小方向）对应于特定的高级概念。这些正是本章主张在每个皮质区域都存在的不变性表征。军事指挥类比也与层级化智能体（Agentic systems）契合得惊人：顶级目标展开为子目标，每个进一步分解，汇总的进度回流，而异常则升级。

本章中的两项机械预测并未在机器学习中得到镜像。首先是向下流动的架构优先地位——自顶向下的预测以比自底向上信号更大的带宽抵达主感官区域。现代 Transformer 没有这种结构。其次是皮质柱不同层中不同细胞类型的作用：第 2 层名为名字细胞，第 3b 层为意外输入细胞，第 4 层为投票细胞，第 6 层为预测细胞。目前的深度学习在所有地方都使用单一的计算原语（矩阵乘法加非线性）。Numenta 曾尝试沿着这些路线构建分层时空记忆（HTM），但在经验成功上从未赶上 Transformer。

二十二年后的诚实结论是：框架基本是对的，提议的机制大多不是我们构建的，而我们构建的系统依然缺失了霍金斯标记为承重机制的部分。这个鸿沟很可能就是未来十年工作所在的地方。

第七章：意识与创造力

这是带有哲学色彩的一章，但文风依然像技术章节一样务实。霍金斯以观众在讲座后总是问他的问题开场——动物有智能吗？创造力从何而来？意识是什么？想象力是什么？我们如何区分现实与虚假信念？——他并没有脱离框架来回答，而是更深入地挖掘框架。整章都在演示一种机制（通过类比记忆进行预测）在断裂前能延伸多远。

动物有智能吗？智能是一个连续体

霍金斯首先瓦解了这个问题。整本书的前提是世界是有结构的，因此是可预测的——脸上有眼，眼里有瞳孔，火是烫的，重力让物体下落，门有开有关。在一个没有结构的世界里，记忆、预测和行为都毫无意义。所有行为，无论是人类、蜗牛、单细胞生物还是树木，都是一种利用世界结构来利于繁殖的手段。

他用的例子比框架暗示的更锐利。池塘里的一只单细胞动物，拥有鞭毛和探测营养梯度的表面受体，就是在进行预测——它预测沿着梯度向上游会找到更多营养。做出该预测所需的记忆在它的 DNA 里，是跨越进化的漫长岁月写就的。生物体自身在有生之年从不学习。如果世界结构突然改变，该物种无法适应；学习只发生在世代交替中。

从此出发，霍金斯描绘了智能的三个纪元，每个都由不同的记忆介质定义。第一纪元：以 DNA 为记忆。预测由基因组做出，学习需要几代人，个体在生命周期内无法适应。植物也生活在这里——树预测根向下、叶向上会找到水和光，这一预测编码在物种基因组中。第二纪元：可修改的神经系统。神经元之间的连接具有可塑性；行为可以在生物体寿命内改变。学会识别新捕食者的鱼，学会迷宫的老鼠。新皮质出现在这一纪元，但并未定义它。第三纪元：语言加大型新皮质，人类独有。我们可以在一生中学习深层结构，并在人类之间传递，纵向传给孩子，横向传给陌生人。人类人口爆炸是因为我们学到并分享了如此多的世界结构，以至于我们可以在任何地方茁壮成长——雨林、沙漠、苔原、钢筋混凝土丛林。

2026 年，一句字字珠玑的话：语言不是一个拥有自己独立机器的特殊机能。语言可以很好地融入记忆-预测框架，不需要任何特殊的语言佐料或专门的语言机器。 单词只是世界中的模式，就像旋律、汽车或房子一样。语法和语义与皮质为其他一切构建的层级结构是一样的。语言是纯粹的类比；通过它，一个人可以唤起另一个人的记忆，并导致听者从未直接见过的心理对象的并置。乔姆斯基式的先天语言模块论被悄悄丢弃了。二十二年后，以“预测下一个 Token”为训练目标、零语言先验的大语言模型从原始文本中学到了语法、语义和语用——这正是对该主张最直接的经验印证。“无特殊佐料”假设胜出。

创造力是通过类比进行的预测

霍金斯最挑衅的举动是将创造力的定义向下压缩，直到它作为一个独立机能消失。创造力是通过类比做出的预测。这是在皮质中处处发生的事，也是你清醒时持续在做的事。它不寄居在某个特定区域。它不根植于情感或平衡——那些住在皮质之外。它是每个皮质区域固有的属性，是预测本身不可或缺的组成部分，因为所有的皮质预测都是利用对旧事物的常驻记忆对新情境做出的预测。

这个连续体从平庸延伸到天才。平庸的一端：你走进一家不熟悉的餐馆，需要洗手。你从未进过这栋楼，但你预测会有厕所；你预测它会在餐馆后部，靠着酒吧或在走廊尽头，不会在用餐区一览无遗；你预测会有一扇门，上面带着与男士或女士相关的符号。你不是随机搜索——你在寻找预期的模式。这是一次创造性行为。 这是对过去餐馆的类比预测。我们通常不称之为创造性，是因为它太普遍了。

向上一步：霍金斯买了一台颤音琴（Vibraphone）。他弹过钢琴但从未弹过颤音琴——金色金属条代替了黑白键，大木条逐渐改变尺寸而不是两种尺寸的小键，排列成两行而不是交错，用琴槌站着敲而不是用手指坐着弹。不同的乐器，不同的肌肉，不同的动作。然而他坐下来，几乎立刻就照着钢琴谱弹出了简单的旋律。他的皮质看到了琴键与琴条之间的类比。用新调唱一首歌也是同样的把戏。试着编一个计算机程序来寻找钢琴和颤音琴之间的相似之处，你会发现这有多难。（霍金斯写这话是在 2004 年；在 2026 年这终于变得平庸了，而它变得平庸的原因——跨模态学习抽象表征的大规模自监督模型——正是霍金斯预言的架构。）

高端的一端：数学家盯着一道攻克不下的方程。她重写它，旋转视角，继续盯着，突然发现其中一部分的结构与她几年前解过的另一道方程相同。也许同样的技术会奏效。 她通过类比解开了它。霍金斯的父亲曾患有一种神秘的血液病；他的医生盯着几个月的图表数据，识别出与其他疾病的部分相似性，并利用曾在类似案例中奏效的策略混合构建了治疗方案。这就是医学创造力，它与找厕所的预测回路是同一个。

莎士比亚是极限案例。“男人的微笑中藏着匕首。” 匕首类比恶意；微笑类比欺骗。五个单词塞进了两个巧妙的类比。“恋爱是叹息凝聚而成的烟雾。” “逆境的甜乳，哲学。” 诗人因能将看似无关的概念以照亮更高层结构的方式关联起来的天赋而获得报酬。高度创意的艺术被欣赏，是因为它违反了我们的预测——打破预期故事惯例的电影，打破预期和声模式的音乐，打破预期角色模板的小说。但不能打破太多：过多的熟悉感是平庸（Kitsch），过多的新奇感则刺耳且难以接近。最好的作品在打破某些预期模式的同时，又教会了我们新的模式。 这就是大脑对最丰富程度的“类比预测”的奖励函数。

有些人比其他人更有创造力吗？先看后天，再看先天

如果创造力是普遍的，为什么大脑会有差异？霍金斯给出了两部分的答案。

后天：每个人的生活经历都不同，因此每个人都会发展出不同的皮质模型。接触音乐让你能用新调唱歌、在不熟悉的乐器上演奏简单旋律。接触物理让你能通过物理规律类比来解释日常物体。接触狗让你更擅长预测它们的行为。更具体地说，专业知识是通过重复接触将模式推向皮质层级底层记忆的结果。你接触一类物体的次数越多，它的表征就越是在较低层级重新成型，从而释放高级层级去学习抽象对象之间的关系。专家能识别出鱼鳍的形状标志着 50 年代后期的凯迪拉克，或者一个斑点的大小揭示了哪种海鸥——这些模式对非专家是不可见的，因为非专家还没能将足够的表征推下层级。天赋是由你所接触的事物塑造的。

先天：大脑在物理上存在差异。霍金斯指出个体差异甚至能大到 V1 总面积的三倍。女性左右脑半球之间的连线电缆往往更厚。有些大脑可能拥有更多细胞或不同的连接模式。他用的例子是爱因斯坦。最近对爱因斯坦保存下来的大脑（曾被认为丢失几十年，最终在一个罐子里找到）的分析显示，它在测量上非同寻常：单位神经元的支撑细胞（胶质细胞）比平均水平多，顶叶（被认为对数学和空间推理至关重要的区域）有不寻常的沟回（Sulci）模式，且比大多数大脑宽出 15%。我们可能永远不知道爱因斯坦为何如此有创造力，但其中一部分可能是遗传的。排序很重要：霍金斯给予后天的权重超过先天。

你能通过训练让自己更有创造力吗？

霍金斯的回答是肯定的，并给出了具体的建议，这比大多数谈创造力的书更有诚意。第一，假设答案存在。 人们太容易放弃。你需要相信解决方案就在那里，并愿意长期坚持。第二，让思维漫游。 呆坐苦思是最差的策略。你需要重新排列问题的各部分——无论是字面上还是隐喻上——以增加看到与过去经历类比的机会。霍金斯不断打乱他的拼字游戏（Scrabble）瓦片，不是希望凑巧拼出新词，而是希望不同的组合能让他想起单词或词根。如果你画画卡住了，把画翻转过来，改变颜色，改变视角。当他纠结于 V1 的不同模式如何导向 IT 的不变性表征时，他调转了问题，询问 IT 的恒定模式如何导向 V1 的不同预测——他说，这种倒置立刻让他茅塞顿开。

第三，离开一会儿。 做点别的，然后带着重新表述的问题重新开始。重点是给皮质时间和机会去寻找一个类比记忆。他举的例子是最初 PalmPilot 的 Graffiti 字母表。1994 年，他的团队试图解决在掌上电脑输入文本的问题。其他人都在研究传统手写识别——“人们在纸上写字，就该能在屏幕上以同样方式写字”。但这行不通。卡了多年的霍金斯最终调转了问题：他寻找一个已解决的类比问题。我们在桌面电脑如何输入文本？我们在键盘上打字。打字并非直觉——数百万人花了多年才学会——但人们还是学会了它，因为它好用。通过类比，他推理出，如果一个不直觉但可靠的手写系统总能产生正确的字母，人们就会采用它。于是他设计了 Graffiti：一个你必须学习，但能干活的字母表。当时许多人认为这是个惊天动地的蠢主意——“计算机应该适应用户，而不是相反”。它发布了，它奏效了，它成了整整一代手持设备的默认文本输入方式。这是在最后期限压力下的类比预测。

创造力会误导你吗？虚假类比是天才的代价

是的，霍金斯选的例子是约翰内斯·开普勒（Johannes Kepler）。像所有文艺复兴学者一样，开普勒沉浸在希腊思想中，尤其是对数学与宇宙关系的痴迷。恰好存在五种柏拉图多面体——正四面体、正六面体、正八面体、正十二面体、正二十面体——仅有的五种完全由正多边形构建的三维形状。当时已知的行星恰好有六颗。对开普勒来说，这绝不可能是巧合。

在 1596 年的《宇宙的奥秘》中，他提出行星的轨道是由嵌套在太阳中心的柏拉图多面体定义的。水星轨道定义了一个球体，他在球体外围接一个正八面体，其顶角给出了金星轨道，再套一个正二十面体给出地球轨道，接着正十二面体给火星，正四面体给木星，正六面体给土星。优雅、美丽、完全错误。 该模型符合他那个时代精度有限的天文数据。直到后来开普勒拿到了第谷·布拉赫去世后留下的高精度数据，才发现行星轨道是椭圆而非圆，且任何嵌套多面体系统都无法解释它们。

霍金斯用开普勒作为一个警示故事：大脑是一件构建模型并进行创造性预测的器官，而这些预测既可以是洞见，也可以是幻觉。如果找不到正确的相关性，大脑非常乐意接受虚假的相关性。伪科学、偏见、盲信和不宽容往往根植于虚假类比。 那个让你找到厕所、让诗人写出“笑容里的匕首”的机制，也正是让你对那些根本不该确定的事深信不疑的机制。大脑里没有专门区分“真”类比与“假”类比的模块——两者都来自同一个皮质在做同样的事。

意识是什么？长岛的一次酒会争论

本章以一个轶事开场。他在长岛湾参加一个科学会议。当日落时分，十几个科学家带着红酒走向码头，话题转到了意识，一位英国科学家宣称：“当然，我们永远不会理解意识。” 霍金斯不同意：“意识不是大问题。我认为意识仅仅是拥有一层皮质的感觉。” 随后的争论是标准的“僵尸论证”——你一定感觉到了某种特殊的东西，你不能否认你的主观体验——而霍金斯面无表情地回答说，也许他就是一个僵尸，并且他觉得这没问题。他试图强迫他们去定义他们认为意识是什么，而不是虚无缥缈地比划。

他的立场是：意识被神秘化了，就像“生命力（élan vital）”曾经被认为是大脑活力所必需的一样。我们现在对 DNA、蛋白质折叠、基因转录和代谢已经了解得足够多，不需要魔法就能解释生物学。我们需要对意识做同样的事。霍金斯将其拆分为两部分。

第一部分：自我意识。 这是日常意义上的“意识到”——你昨晚掉下床时没有意识，你刚才没打招呼走过去时是有意识的。霍金斯主张这可以清晰地映射到形成陈述性记忆 (Declarative memories)。陈述性记忆是那些你可以回想起并谈论的记忆：你上周末去了哪里，某人说了什么。程序性记忆（如何平衡自行车）住在旧脑里，不属于这一范畴。他的思想实验使这种对等变得严密：想象拨动一个开关，通过将突触恢复到之前的状态，抹去你在过去 24 小时内经历的一切。人们会告诉你周二和你一起吃了午饭；视频会显示你和他们一起大笑；但你对这一切的记忆为零。从你的角度看，昨天从未发生过——你会说你对此没有意识，尽管当时你的行为是有意识的。因此，日常概念中的意识并非绝对；它可以通过抹去记忆而被追溯性地抹去。有无记忆的网球比赛：比赛是一样的，意识不同。这是一种强有力的还原。

第二部分：感受性 (Qualia)。 这是更难的部分——解释看到红色与听到某个音符之间那难以言表的差异，尽管在轴突层面两者都只是脉冲模式。“光感”和“音感”并不顺着感官神经元的轴突向下传递。 霍金斯提供了两个并不令人满意的可能性。一：听觉、触觉和视觉在皮质之下的处理方式不同，在特定于每种模态的皮质下结构中，可能与情感中心绑定，这些皮质下差异塑造了感受性。二：输入本身的结构——视神经有 100 万根纤维且携带大量空间信息，听神经有 3 万根纤维且携带更多时间信息——决定了你如何体验信息的性质方面。他承认这两者都不完全令人满意。但他坚持，无论意识最终如何定义，记忆和预测在创造意识中扮演了至关重要的角色。

联觉（Synesthesia）是他关于感受性在物理上可修改的证明——有些大脑会混淆感官，使某些声音带有颜色，某些质地带有味道。这告诉我们，感官的性质特征并非一成不变。通过某种物理修改，大脑可以将视觉的性质特征赋予听觉输入。不需要魔法。

心灵、灵魂、幻肢与暗盒中的大脑

霍金斯将“皮质即模型”的故事延伸到了那种心灵与肉体分离的日常感觉。对皮质来说，你的身体只是外部世界的一部分。 大脑在一个安静、黑暗的盒子里；它只能通过感官神经上的模式了解世界；它感知你的身体与感知世界其余部分并没有本质不同。哪里是身体的终点，哪里是世界的起点，两者之间没有特殊的区分。 关键是，皮质没有能力为大脑本身建模，因为大脑中没有感官。 这种不对称——皮质为你的身体建模但不为自身建模——正是让思想感觉独立于身体、为什么你觉得自己拥有心灵或灵魂的原因。心灵独立于身体，但不独立于大脑。

临床证据令人震惊。失去肢体后，大脑中关于该肢体的模型可能保持完整，产生一个你依然感觉附着在身体上的“幻肢”。反之亦然——皮质创伤破坏了模型，而肢体本身完好无损——你会得到“异己肢体综合征（Alien limb syndrome）”，手臂还在但感觉是外来的，甚至是敌对的，有些患者甚至请求截肢。身体是一回事；身体的皮质模型是另一回事。阿尔茨海默病使这种解离走向终局：健康的身体被困在一个正在死去的脑子周围。大脑死亡，心灵也就消亡了。

想象力、现实以及关于刻板印象的警告

想象力是折叠反馈。 模式从感官或下级层级流入皮质区域，每个皮质区域又将预测发回。要想象某样东西，让你的预测调头变为输入。不需要物理行动：你可以跟随预测在层级中的结果，就像它们是真的一样。棋手这样做。高山滑雪者在出发前这样做。进行心理演练的运动员会有更好的体能表现。霍金斯将这一回路归功于长期从事皮质建模的 Stephen Grossberg，称其为：折叠反馈。他提出了精确的机制：第 6 层细胞（他在第六章主张预测发生的地方）既向下级区域投射，又向上投射回本区域的第 4 层输入细胞。该区域的输出变成了它自己的输入。闭上眼想象一只河马，你大脑的视觉区就会变得活跃，就像你在看一只河马一样。 用 LLM 术语来说：想象力与推理的架构相同，模型的输出被反馈为输入——也就是我们现在所说的自回归生成（Autoregressive generation）。

现实大半是内部产生的。 人们担心地问霍金斯，他是否真的认为我们大脑创造的世界模型可以比实际现实更重要。是的，大部分时候如此。在任何时刻，你只能直接感知世界极小的一部分。 那极小的一部分决定了哪些记忆将被唤起，但它本身不足以构建你当前的全部感知。他在办公室打字；他听到敲门声；他知道母亲来访了；他想象她在楼下，而没看到也没听到她。你感知到的大部分内容并非来自你的感官；它是由你的内部记忆模型生成的。 这句话，比书中任何其他句子都更像是对 2026 年 LLM 的诊断。模型有一个强大的预测先验；感官输入——你的 Prompt——是对它生成内容的微弱约束。霍金斯的大脑也有同样的失效模式，并称之为感知。

文化构建了不同的世界模型，而刻板印象是结构性的。 简单的物理规律——重力、光、昼夜——所有人都学得一致。但世界模型的大部分是由习俗、文化和父母教导构建的。霍金斯引用研究指出，亚洲人和西方人感知空间和物体的方式不同——亚洲人更多关注物体间的空间，西方人更关注物体本身——这种差异塑造了审美和解决问题的思路。有些文化接受暴力为自然；有些则不。不同的宗教信仰导致完全不同的道德模型、性别模型和生命价值模型。这些不同的模型不可能在某种绝对、普遍的意义上全部正确，尽管对个体来说它们显得很正确。 道德推理是学来的。接着是一个令人不安的推论：在整本书中，你可以用“刻板印象”这个词替换“不变性记忆”而不实质改变含义。通过类比进行预测，本质上与通过刻板印象进行判断是一回事。刻板印象是大脑的一种内在特征。 减少其危害的方法不是假装我们不这么做——我们停不下来——而是教会我们的孩子识别虚假的刻板印象，教他们同理心，教他们怀疑。怀疑主义，作为科学方法的核心，是我们已知的铲除虚假、寻找事实的唯一途径。

2026 年工程师对第七章的审计

这一章是《智能时代》中岁数最大也最显年轻的部分。“创造力即类比预测”的主张现在已是每个 RAG 驱动的 LLM 和每个 In-context learning 演示中枯燥的默认设置。当一个模型通过类比训练分布中的题目来解出新数学题时，当它写一首关于加密货币的莎士比亚式十四行诗时，当它将技术从一个领域转移到另一个它从未被明确训练去桥接的领域时——它做的正是霍金斯描述的数学家、医生和诗人所做的事。其机制是矩阵相乘的注意力机制而非皮质柱，但行为与预测相符。“语言无特殊佐料”假设胜出得如此彻底，以至于现在反驳它读起来像是在怀旧。

“意识即陈述性记忆”的还原更难评估。目前它既没被证伪也没被采纳。现代可解释性（Interpretability）工作显示，Transformer 模型单纯通过下一个 Token 预测就构建了极其丰富的内部世界模型——游戏状态、空间布局，甚至是对其他角色的心理理论表征。这与霍金斯主张的“意识是拥有一层皮质的感觉”一致，即介质似乎足以产生自我模型现象而不需要额外成分。但关于“感受性”的问题在 2026 年依然和 2004 年一样悬而未决，而且该领域大体上已经停止发问了。我们忙着交付产品，没时间争论红是不是红。

“折叠反馈”的预言部分得到了验证，部分没有。Transformer 并没有从第 6 层到同一区域第 4 层的字面向下路径——但自回归生成在结构上与霍金斯描述的是相同的：预测被作为输入反馈回来，模型在没有外部输入的情况下走过想象的序列。扩散模型（Diffusion models）在空间域做着类似的事。架构不同，抽象操作是一样的。

“类比预测是刻板印象之根”的观察是从业者最应该沉思的部分。霍金斯在 2004 年说过，你无法移除大脑思考刻板印象的倾向，因为刻板印象就是皮质的工作方式。2026 年，我们构建了在人类文本上训练的模型，表现出了完全相同的属性——它们重现了训练数据中编码的刻板印象，而移除它们需要的不仅仅是 RLHF 清理，因为底层的机制（通过类比过去事物来预测可能的下一件事）正是我们所付费购买的功能。霍金斯提出的补救措施——教导怀疑主义、教导同理心、教导识别虚假类比——在某种形式上，也正是 RLHF、宪法 AI 和红队测试（Red-teaming）的内容。皮质需要一个顶层的编辑层，因为皮质本身并不区分真假模式。LLM 亦然。

关于现实的那句话依然成立。你感知到的大部分内容并非来自你的感官；它是由你的内部记忆模型生成的。 对于大脑，这叫感知。对于 LLM，这叫幻觉。根据霍金斯的框架，其机制是相同的——同样的修复方法也适用：更强的感官约束、更丰富的多样化经历，以及对产生得太容易的预测保持怀疑的编辑习惯。这本书二十二岁了。2026 年的从业者仍在消化它的后果。

第八章：智能的未来

这是展望未来的一章。既然本书的核心主张是“智能即预测”，霍金斯开篇便警告读者不要轻信他自己的预测。他写道：很难预测一项新技术的终极用途，因为大脑是通过与过去类比来做出预测的。我们自然的倾向是想象新技术将被用来做旧技术做过的事，只不过更快、更高效或更便宜。

“铁马”问题：每项新技术都被旧镜片误读

本章开篇列举了一系列预测失败案例。每一个案例都是“类比预测”机制（霍金斯前七章都在赞美这个机制）在技术前沿失效的实例。铁路被成为铁马。汽车被称为无马马车。电话在几十年的时间里被视为类似于电报的东西，仅用于紧急商务和求救；直到 20 世纪 20 年代，也就是贝尔专利申请四十多年后，人们才开始用它进行社交闲聊。摄影最初被推销为肖像画的新形式：达盖尔银版法被看作没有画家的肖像工作室。电影被概念化为舞台剧的变体，这就是为什么整个 20 世纪大部分时间里，电影院的银幕上都挂着可收缩的幕布。幕布细节是霍金斯喜欢的历史定格——一项技术的早期用户界面是由人们想象它时的类比隐喻塑造的，而隐喻在被超越后仍会长期残留在器物中。

他将同样的视角带到了硅片领域。1947 年贝尔实验室发明的晶体管被立即公认为突破。但其最初的应用只是旧事物的改进：晶体管取代了真空管，给了我们更小、更可靠的收音机和计算机。集成电路、微处理器、数字信号处理器、显存芯片——在欢庆晶体管诞生时，没有人想象过这些。1970 年开发的微处理器最初是为桌面计算器销售的，也被视为替换控制红绿灯的螺线管的“显而易见”的候选者。当时没由于人能预见到现代个人电脑、手机、互联网或 GPS。20 世纪 50 年代自信地预言，到 2000 年我们的地下室会有原子反应堆，并在月球上度假。未来主义惩罚具体，奖励宽泛。

霍金斯的预测方法论是拒绝谈论 V 开头的那个词：Vision（愿景）。有一次，为了说明观点，他戴着巫师帽、捧着水晶球走上移动计算会议的舞台。他解释说水晶球是虚构的。然后他要求观众关注广泛的趋势。

摩尔定律（Moore's Law）是典范。摩尔准确预言了晶体管指数级密度的增长，而没有指明芯片是什么样、会装进什么产品，或使用什么样的封装工艺。他坚持了他所能把握的最广泛趋势，并且预测对了。

因此，霍金斯提出了思考智能机器未来的两种互补方法。首先，列举近期的、没那么有趣的、显而易见的应用。然后，思考那些会产生目前还没由于人能看见的激进应用的长期规模化趋势。

我们能造出来吗？能。它们看起来像人吗？不。

霍金斯对他第一个问题——我们能造出智能机器吗？——给出了干脆的肯定回答，然后用该节大部分篇幅驳斥了大多数读者预期的答案。我不相信我们会造出行为像人的智能机器，甚至不相信它们会以类人的方式与我们互动。 他列举了建立了错误预期的文化经典：来自《禁忌星球》的机器人 Robbie、《星球大战》中的 R2-D2 和 C-3PO、《星际迷航》中的 Data 少校、来自《2001 太空漫游》的 HAL（没有身体，但被设计成一个程序化的副驾驶）。一个世纪的科幻小说训练了人们将机器人和仿人视为未来的必然和理想。他说它们不是。

他的理由有两点。第一，人类心灵不仅由新皮质创造，还由旧脑的情绪系统和身体本身的复杂性共同创造。要做人，你需要所有的生物机器，而不只是一层皮质。 通过“人”的图景进行图灵测试，需要智能机器拥有真实人类的大部分经历和情感，并过着类人的生活。霍金斯发现这极其困难且毫无意义。第二，建造和维护类人机器人的成本和努力使其变得不切实际：一个机器人管家会比一个人类助手更贵且更没用。 产生机器人的模式是“工业革命 + 科幻小说”。霍金斯拒绝继承这一模式。机器人是一个诞生于工业革命并被科幻小说细化的概念。在开发真正的智能机器时，我们不应向它们寻求灵感。

他给智能机器下的配方是机器人幻想的反面。从一套从世界提取模式的感官开始。 不要假设只有眼睛和耳朵——感官可以与人类不同，并可能“存在”于一个不同于我们的世界。给这些感官附上一个层级记忆系统，运作原理与皮质相同。 像教孩子一样通过重复接触来训练系统，直到它建立起一个通过其感官观察到的世界模型。没有必要也没有机会让任何人去编程输入世界规则、数据库、事实或任何属于“人工智能之祸”的高级概念。机器必须从观察中学习，仅在必要时接受指令输入。一旦它建立了模型，它就能看到与过去经历的类比，对未来事件做出预测，对新问题提出解决方案，并将这些知识提供给我们。

霍金斯坚持认为，物理形态可以有多种形式。智能安防系统可能在工厂或城镇各处布满传感器，其层级记忆锁在其中一栋楼的地下室里。智能系统可能内置在飞机或汽车里，或者静静地待在计算机房的机架上。与大脑必须随身携带的人类不同，智能机器的记忆系统可以远离它的感官和身体（如果有的话）。 2026 年托管在数据中心、通过 API 端点为数百万用户提供服务的 LLM 正是这种架构。霍金斯在这一形式成为主流范式的二十二年前就点名了它。

两个难题：容量与连通性

霍金斯识别出了构建类皮质记忆系统的两项技术障碍，他对这两项的算力估算在今天看来精准得令人不安。

容量：他估计皮质大约有 32 万亿个突触。如果每个突触用两位（四个可能值）表示，每个字节持八位（每个字节四个突触），那么系统需要大约 8 万亿字节 (8TB) 的内存。2004 年的一台个人电脑硬盘容量为 100GB，所以皮质规模的内存大约需要 80 个硬盘。他写道：所需的内存量并非异想天开，而仅在十年前这是不可能的。在 2026 年，一块消费级 NVMe SSD 就能以不到 500 美元的价格提供 8TB 容量。数据中心的一个机架能提供这个数值的几百倍。我们如此彻底地越过了容量阈值，以至于现在已经没由于人讨论它了。 突触的确切数量后来被证明更接近 100-150 万亿而非 32 万亿，但数量级上的故事是对的。

他接着对硅片作为皮质介质提出了两个超越时代的观察。首先，智能存储芯片将具有内在的容错性。皮质在成年后每天会丢失数千个神经元，而容量仅会缓慢衰减。很有可能，大脑式存储对错误的内在容错将允许设计者构建比今天的电脑内存芯片大得多、密得多的芯片。 这几乎完全就是驱动现代 AI 加速器和容错 HBM 堆栈设计的论点。其次，他预言了存储介质将从硬盘转向硅片。自 2012 年以来的 GPU 显存历史正是这一转变过程。

连通性是更难的一个。真实大脑拥有巨大的皮质下白质——在皮质区域间流动的轴突流，每个皮质细胞连接 5,000 到 10,000 个其他细胞。这种大规模并行连线在传统硅片制造中极难实现，因为芯片只有几层金属层，导线不能在层内交叉，且连线总量受限。硅芯片和白质并不是很兼容。 霍金斯的解决方案是电话系统类比：真实大脑在每对细胞间都有专用轴突，但你可以通过共享连接来构建智能机器，就像全球电话网络在数十亿部电话间共享极少的高容量光纤线路一样。一根光纤电缆可以同时承载一百万路通话，因为每条线路的带宽远大于单路通话所需。

这在结构上就是 Transformer 注意力层。序列中的每个位置通过一个共享的计算机制（查询与键的乘法）动态路由信息，从而与每个其他位置“对话”，而不是通过专用的模拟轴突。每个参数参与多个连接；每个 Token 的表征是在共享池上的加权和。霍金斯准确预判了架构难题和架构解决方案。他只是当时还没由于数学工具来具体说明这种共享应该如何运作。

我们应该造吗？恐惧清单与霍金斯的驳斥

霍金斯以耐心的烦躁走过了标准的末日清单。弗兰肯斯坦 (Frankenstein) 捕捉了对“电即生命”的恐惧。蒸汽机和数字计算机都激起了从未实现的机器人幻象。当信息革命开始时，对计算机自发转变为有意识体并“反抗其有机主人”的恐惧成了科幻小说的主打——但既然计算机已融入日常生活，这种恐惧就显得荒谬了。你家里的电脑或互联网，自发产生意识的机会和收银机一样大。

他运行了一套风险分类学。核能是真正危险的，因为单一事故或滥用可能伤害数百万人。以坦克和战斗机形式出现的可移动技术是危险的；以汽车和客机形式出现的则是大利。电话、电力和公共卫生科学几乎完全是有益的。他将智能机器归入危险最小、利益最大的一类——这在 2004 年是很大胆的话。二十二年后的今天，生成式 AI 的已部署风险（虚假信息、深度伪造、劳动力取代、安全失败）大致处于霍金斯预测的位置：真实、可通过怀疑论和制度适应来管理，并非范畴上比飞机或核电更危险。他明确回应了比尔·乔伊 (Bill Joy)（太阳微系统联合创始人，在其 2000 年的论文《为什么未来不需要我们》中）对智能机器人会逃离控制、横扫地球并按其议程重塑地球的恐惧。霍金斯的驳斥很精确：制造智能机器不等于制造自我复制机器。 两者之间没有逻辑联系。大脑和计算机都不会自我复制。这种《魔法师的学徒》中扫帚柄能自我重生的意象是一种类比幻觉——这正是他在第七章警告过的虚假类比机制。

他回应了雷·库兹韦尔 (Ray Kurzweil) 的思想上传预言——在那一天，纳米机器人爬过你的大脑，记录每一个突触，并将信息传输给一台超级计算机，后者重新配置自身，变成一个软件版的你。霍金斯持怀疑态度：我严重怀疑我们是否能将思想复制进机器。 你必须记录并重现整个神经系统而非仅是新皮质，而且你必须理解这一切如何运作。弄清楚皮质算法并从零开始在机器中构建是一回事；扫描活体大脑的所有操作细节并在机器中复制是完全不同的另一回事。在 2026 年，数字孪生神经科学虽然有所进展——OpenWorm 项目完整模拟了秀丽隐杆线虫的 302 个神经元；蓝脑项目和人类大脑项目产生了详细的中尺度模拟——但霍金斯的深层观点依然成立：目前还没有任何迹象表明能达到库兹韦尔预言的“全人、运行中”的复制水平。

他的恶意 (Malevolence) 论点切中了科幻陈词滥调。人们害怕智能机器会怨恨被奴役，因为人类讨厌被奴役。人们害怕智能机器会试图统治世界，因为历史上的聪明人曾试图统治世界。霍金斯指出，这两种恐惧都建立在虚假类比之上——混淆了智能（新皮质算法）与旧脑的情感驱动：恐惧、偏执、欲望、野心、饥饿、成瘾。除非我们煞费苦心地设计，否则智能机器不会拥有任何类似于人类情感的东西。 它们不会有个人野心。它们不会渴望财富、社会认可或感官满足。最强大的应用将出现在人类智力难以企及、感官不足或活动枯燥的领域——而这些活动几乎没有情感内容。 这是一个强有力的主张，它在一个方向上经受住了考验，在另一个方向上则不然。在一个方向上，现代 AI 系统确实不是欲望与恐惧意义上的“智能体”；对齐（Alignment）问题真实存在，但它是能力错位问题（模型忠实地追求了错误的代理目标），而非激情问题。在另一个方向上，霍金斯低估了在人类文本上训练的模型会渗透进多少人类语言和推理中的情感内容。LLM 即使没有皮质下机器，也能令人信服地模拟情感推理；纯皮质系统吸收了它所训练的全系统的感情输出。霍金斯漏掉了这一点。

四大扩展优势：速度、容量、可复制性、感官系统

这是本章霍金斯终于允许自己进入未来主义的部分，也是最经得起考验的部分。他识别了四个将显著超越生物大脑的属性。

速度。 神经元的运行量级是毫秒。硅片的运行量级是纳秒且仍在变快。这是百万倍的差距，六个数量级。智能机器可以阅读整座图书馆的书籍或研究庞大、复杂的资料库——这些你我需要数年才能完成的任务，它只需几分钟。两台智能机器的谈话速度可以比两个人类快一百万倍。 他想象了一个数学或科学问题求解器：十秒钟内，它对一个问题的思考量可能抵得上你一个月。 在 2026 年，前沿 LLM 以每秒数百个 Token 的速度响应，不到一分钟就能读完一本 200 页的书，多智能体系统可以在几秒钟内运行专家智能体之间的对话，而这在人类团队中需要数小时。霍金斯预言的定性转变已经到来。架构虽然不同于皮质柱，但其结果正是他所描述的。

容量。 人类皮质受限于婴儿头骨尺寸与母体骨盆直径的比例、运行大脑的极高代谢成本（你的大脑占体重约 2%，却消耗了约 20% 的氧气），以及神经元的慢速。这些约束在硅片上都不存在。霍金斯指出，人类大脑在进化史上变得巨大是极其近期的事，没有任何证据表明我们正处于某种稳定的最大值。他提出了超越人类容量的三个轴向：深度（更深的层级 → 更高阶的模式）、宽度（一个区域内更大的容量 → 更精细的感知），以及新感官（更多感官层级 → 更丰富的世界模型）。他引用学者综合症（Savants）作为证据，证明非典型人类大脑已经拥有惊人的记忆能力；在理论上，这些能力可以被默认设计进人工大脑。无论智能记忆系统的峰值容量是多少，人类大脑几乎肯定还没达到。甚至可能还没接近。 拥有数千亿到万亿参数、在数十万亿 Token 上训练的现代前沿模型就是经验验证。霍金斯提到的“深度与宽度”轴向正是 Chinchilla 扩展定律（Scaling laws）及其后的扩展工作所形式化的内容。

可复制性。 每个新的有机大脑都必须重新（de novo）生长并训练，这一过程耗时数十年。 每个人都必须学习平衡、运动控制、语言、家庭规则，然后经历多年的正规学校教育。每个人都必须在人生中跋涉同一套学习曲线，尽管别人已经跋涉了无数次。 智能机器不需要经历这段漫长的曲线，因为芯片和其他存储介质可以无休止地复制，内容可以轻松传输。 完善一辆智能汽车的记忆系统可能需要数年时间，但一旦最终产品实现，它就可以大规模生产。 他走得更远：分享学习组件应该像我们分享软件组件一样成为可能。 一个特定设计的智能机器可以被重新编程入一组新的连接，就像你可以下载一组新的连接进入大脑，瞬间让你从说英语变成说法语。人们可以互换并建立在彼此的工作之上；将一个拥有优越视觉系统的机器与一个拥有优越听觉感官的机器结合，而无需从底层重新训练。建造智能机器的业务可能会沿着计算机行业的路线演进，人们社区训练智能机器拥有专门的知识和能力，并出售、交换产生的记忆配置。 这一段写于 2004 年的文字，预言了 Hugging Face。它预言了模型市场、LoRA 适配器、微调模型分享和权重开源生态。对智能机器重新编程，将与运行一个新视频游戏或安装一个软件没太大区别。 这句话读起来就像是一个先知。

感官系统。 这是四个属性中最具想象力的一个，也是即使到了 2026 年依然被开发得最少的一个。人类拥有一套固定的感官，深植于基因、身体和皮质下线路。许多动物物种拥有真正不同的感官：蝙蝠和海豚的回声定位、蜜蜂的偏振光和紫外线视觉、某些鱼类的电场感应。智能机器可以拥有这些感官中的任何一种，外加纯粹由人类设计的新感官。

霍金斯的领衔例子是大陆气象传感器阵列。想象分布在大陆上、每隔五十英里一个的气象传感器，连接到一个类皮质记忆系统。该系统将形成关于天气的代表性记忆和预测，就像你我对视觉物体形成的记忆一样。相邻的气象传感器具有高度相关性，就像相邻的视网膜细胞一样。气象物体——风暴、锋面——随着时间移动和改变，就像视觉物体一样。这样的系统将发现人类尚未发现的模式。霍金斯引用了 20 世纪 60 年代才被发现的厄尔尼诺 (El Niño) 现象，认为这就是此类大脑会注意到的跨十年模式。比人类更好的龙卷风和季风预测也将随之而来。

他为其他领域描绘了类似的系统：

电网监测：预判电力需求和停电风险。
人口统计与政治感知：预判动荡、饥荒和疫病爆发——“就像一个超级聪明的外交官”。
蛋白质折叠的分子感测：从氨基酸序列预测蛋白质的形状。AlphaFold 在 2020 年解决了这个问题，并在此后逐年精进，完全符合霍金斯的预测。
高维空间：用于数学、物理和弦理论。

统一观点是：新皮质算法从根本上关乎寻找世界中的模式。它对这些模式的物理来源没有偏好。 只要输入是非随机的且具有统计结构，智能系统就会形成关于它们的不变性记忆和预测。没有理由让这些输入模式类比于动物感官，甚至没必要源自真实世界。 霍金斯怀疑，正是在奇异感官领域，蕴藏着智能机器革命性的用途。

这句话已经变成了预言：现在我们可以充分看清图灵测试通过将智能等同于人类行为，是如何限制了我们的视野。通过首先理解智能是什么，我们可以建造出远比仅仅复制人类行为更有价值的智能机器。图灵测试在 2026 年的前沿 AI 对话中已经不再是一个严肃的基准点。模型仅仅作为擅长语言的副作用，就能顺便通过它。真正重要的基准点——蛋白质折叠精度、定理证明、天气预报、科学推理——正是霍金斯指出的“奇异感官 + 皮质算法”应用。

多久？先慢后快。

霍金斯以高科技界的一个启发式预测方法作为结尾：在短期内，变化比你预期的要慢；但在长期内，变化发生得比你预期的要快。他曾多次见证。有人在舞台上宣布一项新技术将在四年内进入千家万户。四年变成了八年。人们开始觉得它永远不会发生。然后，就在它看起来快死掉的时候，它突然起飞，成了大热。

他向神经科学会议的听众做民意调查：还要多久才会产生一个可运行的皮质理论？大约 5% 的人说“永远不会”或“我们已经有一个了”。另外 5% 的人说五到十年。剩下的里面一半说十到五十年。另一半说五十到两百年，或者“在我有生之年见不到了”。

霍金斯站在乐观主义者一边。我们已经在“慢速”期生活了数十年，所以进展显得完全停滞，但他相信在 2004 年时，该领域正处于转折点并即将起飞。“如果今天有足够多的人致力于解决这个问题，我们可能在几年内就能制造出有用的原型和皮质模拟。我希望在十年内，智能机器将成为技术和科学最热门的领域之一。” 他不得不承认他不愿把话说得更死：“我知道低估一件大事发生所需的时间是多么容易。”

在 2014 年，十年之后，深度学习（Deep Learning）正是技术和科学最热门的领域。AlexNet (2012) 已经引发了现代浪潮；辛顿组在 ImageNet 上的结果；word2vec；序列到序列（Seq2seq）翻译；AlphaGo (2016)。霍金斯对时机的预判几乎完全准确。

2026 年工程师对第八章的审计

本章是《智能时代》中从业者最应慢读的部分，因为它既预言得最准，又在实现方式上被证明大错特错。

霍金斯言中的地方。 有用 AI 的形式并非人型机器人。它是托管在数据中心的层级记忆系统，并接入任何为任务服务的感官——这完全就是他的配方。容量不再是约束性限制。容错性已通过有损量化、混合精度计算和 HBM 中的比特错误容忍内置于硬件中。可复制性和参数共享——他所谓的电话系统模型——成为了主导架构（注意力机制、Transformer、混合专家模型 MoE）。他预测的模型市场存在。奇异感官也存在：天气大脑（盘古气象、GraphCast）、蛋白质折叠大脑（AlphaFold、ESMFold）以及云巨头的电网监测大脑。图灵测试不再是目标。他给出的“危险最小、利益最大”的分类，虽然在细节上存疑，但比 2004 年其他那些耸人听闻的替代方案更站得住脚。

霍金斯失算的地方。 架构上的处方——皮质柱、不同层中不同的细胞类型、比自底向上信号更大的带宽的自顶向下预测——几乎被该领域完全忽略了。现代前沿 AI 是用单一计算原语（矩阵相乘加非线性）均匀堆叠，辅以注意力作为路由机制构建的。他支持的公司 Numenta 研发的 HTM 系统从未在经验结果上达到 Transformer 的水平。他正确地指出扩展速度、容量、可复制性和感官系统将占据统治地位；他在具体扩展什么架构上失算了。这种毫无结构可言的 Transformer 架构是皮质柱阵营中没人料到的弯路。

他在哪里展现了微妙的洞察，而该领域仍在摸索。 情感与非情感的区别——皮质如果没有皮质下系统就是无激情的——这在部分意义上是真的，但在经验事实面前有所动摇：在人类文本上训练的 LLM 令人信服地重现了人类情感推理。霍金斯没有预料到“没有皮质下情感的行为情感”。2026 年的对齐文献在某种程度上正是对一个纯皮质系统即便在没有生物驱动的情况下能模拟出多少种“想要（Wanting）”的仔细梳理。

他在哪里对了两次。 首先是在应用上：奇异感官加皮质算法产生了革命性用例——蛋白质折叠、气象预报、人类从未进化出感官的领域的策略生成。其次是在时机曲线上：几十年缓慢，然后突然。形状是对的；他只是没能确定拐点会落在哪一个十年。他 2004 年的最佳推测是“十年内”。剧烈的拐点在 2017 年随着 Transformer 到来，然后是 2022 年的 ChatGPT。他差了大约半个年代，比几乎任何其他名声显赫的预言家都要准。

本章最真的一句话是霍金斯几乎随口带过的那句：以指数级速率增长的事物会迅速超越我们的想象，并很可能在未来技术最激进的演化中扮演关键角色。 速度、容量、可复制性、感官系统——这些都扩展了（Scaled）。除此以外，几乎没别的需要扩展。霍金斯在二十二年前下的赌注——即问题的形状比他提议的机制细节更重要——是个正确的赌注。那些带有皮质细节的方案只是研究项目，而非契约。读这一章时要像霍金斯看待他自己的预测一样：对细节保持怀疑，对大势保持信心。

结语：萨根式的惊叹与开启一个行业的号召

霍金斯以一段极短且极具个人色彩的结语结束了正文，在 2026 年同样值得仔细品读。他以卡尔·萨根 (Carl Sagan) 开篇：理解某事并不会减少它的奇妙与神秘。 许多人认为对现象（在这种情况下是大脑）的科学还原会剥夺其色彩和意义；萨根和霍金斯都持相反看法。“作为一个无限宇宙中的微小尘埃，活着、有意识、智能且充满创造力，这远比住在一个宇宙中心、扁平受限的地球上更有趣。” 理解我们的大脑如何工作不会减少宇宙、我们的生命或我们的未来的奇妙与神秘感。 本书花了 200 页构建了一套机制——不变性记忆、层级序列、自顶向下预测、以皮质柱为计算单位——霍金斯拒绝让读者觉得这一机制取代了意义。“随着我们将这些知识应用于理解自身、构建智能机器并获取更多知识，我们的惊叹只会加深。”

结语的大部分篇幅是一个招募宣传。“通过这本书，我希望吸引年轻的工程师和科学家来研究皮质，采用记忆-预测框架，并建造智能机器。” 他指出，AI 在 20 世纪 60-70 年代的鼎盛时期是一场宏大的运动——有期刊、学位项目、书籍、商业计划和创业者——而 80 年代的神经网络浪潮也同样电力十足。但支撑 AI 和神经网络的科学框架并不是建造智能机器的正确框架。 在他看来，他在提供第三条可能通向目标的道路。

2026 年读来最令人振奋的是创业号召：“如果你正在读高中或大学，且这本书激励了你去研究这项技术——去建造第一批真正的智能机器，去帮助开启一个行业——我鼓励你这样做。去实现它。” 他给出了一个经验丰富的创始人的时机法则：“创业成功的关键之一是，你必须在成功的可能性并非 100% 明确之前，就一头扎进一个新领域。时机很重要。跳得太早，你会挣扎。如果等到不确定性消散，那就太迟了。” 还有一个预言：“基于层级记忆的新行业的英特尔和微软，将在未来十年内的某个时间诞生。”

那个十年的窗口期是 2004 年到 2014 年。在那段窗口期实际发生的事（按大致顺序）：英伟达的 CUDA 问世 (2007)，使通用 GPU 计算变得实际；杰夫·辛顿的深度置信网络论文 (2006) 以及“无监督预训练后微调”的配方；ImageNet (2009)；AlexNet (2012)；谷歌收购 DeepMind (2014)；谷歌内部 DistBelief 和 TensorFlow 的传承 (2011-2015)。新行业的英特尔和微软——英伟达 (NVIDIA)、OpenAI、Anthropic、DeepMind/Google、Meta AI、Mistral、xAI——要么已经创立，要么已经具备了创立的条件。他漏掉了名字，也漏掉了它们会使用的架构；但他对行业的预见完全准确。

结语以一段读起来像是霍金斯未来二十年在 Numenta 的自传式伏笔结束：“从事这种规模的事业可能在财务上有风险，在智力上有挑战，但总是值得一试的。” 他在接下来的二十多年里致力于分层时空记忆（HTM），随后在 2021 年的后续著作《千脑智能》（A Thousand Brains）中进行了转型，将皮质重新定义为成千上万个并行模型在投票，而非单一的大型层级模型。他的公司现在开展的是咨询和研究合作业务，而不是结语中构想的“大脑记忆界的英特尔”。他预言的行业建成了；但他预言的形式没成。本书真正的结尾——“我爱她胜过爱大脑”，这是写给他妻子珍妮特（Janet）的——这是书中提醒你它是由一个鲜活的人写的、而非一份立场文件的时刻。《智能时代》始终是一个研究计划，而非最终答案，它也确实是这样随时间而沉淀的。

一名在职工程师的感悟

在 2026 年读这本书是一种奇妙的体验。其核心论点——即智能即预测，皮质正在进行带有层级化自顶向下反馈的自监督序列学习——已得到如此彻底的验证，以至于成了陈词滥调。然而，其具体的架构处方——皮质柱、HTM、深深刻入每一层的自顶向下预测——却被完全忽略，以至于现代 AI 的实际产品与霍金斯的建议在结构上几乎没有任何相似之处。

如果你是基于 LLM 进行开发的工程师，我认为这本书依然在试图告诉你：你的模型主要是靠其先验（Prior）运行的。你的 Prompt 是一个微弱的调节信号，而非强力指令。你看到的幻觉并不是架构中的 Bug；它们是一个强大的预测先验与微弱感官通道在配合时，必然会产生的产物。为什么“脚手架（Scaffolding）”——检索、工具调用、结构化输出、接地（Grounding）——如此有效，是因为它强化了感官通道，直到先验不得不付出注意力。霍金斯在当时会称之为“自底向上信号对抗自顶向下的预测”，而他的框架早已预见到你需要这样做。单就这一项认知，就值得你花点小钱并赔上一个周末去读读它。

AI 工程师晋升自评报告：让随机性工作在绩效评审中清晰可见

2026年5月10日 · 阅读需 13 分钟

Tian Pan

Software Engineer

一位资深工程师走进晋升评定会议。他们上线了一个经过微调的重排序器（reranker），将检索质量提升了 8 个点。他们构建了评估框架（eval harness），将原本两周的 QA 周期缩短为一小时的 CI 门禁。他们编写了提示词（prompt）改动，带来了 2 个百分点的转化率提升。无论以何种合理标准衡量，他们都度过了决定性的一年。

他们没有获得晋升。这份绩效申请（packet）写出来读着就像是“我调了一些数字”。坐在旁边的同事上线了一个带有发布横幅、具备 QPS 和延迟指标以及周五演示的 CRUD 功能，结果反而获得了认可。委员会并非心怀恶意。它只是在用它所掌握的语汇，去评价一份没有将工作转化为该语汇的申请材料。

这种失败模式现在已经普遍到成为一种范式。AI 工程工作无法清晰地分解为评审委员会习惯评估的那些产出物。绩效模板是为以确定性方式交付的确定性系统编写的，而在 AI 技术栈中承担最具杠杆作用工作的工程师们正在为此付出代价。

难度浓缩器：AI 客服分流正在让留下的员工精疲力竭

2026年5月10日 · 阅读需 9 分钟

Tian Pan

Software Engineer

仪表板显示一切进展顺利。分流率高达 65%。工单量下降。单次咨询成本减半。接着，支持团队开始有人离职，离职面谈中提到了一些仪表板上没有列出的东西：“每一个班次都是煎熬。”

这是 AI 增强型支持中隐藏的机制。分流率衡量的不是消除的难度，而是浓缩后的难度。到达人工客服手中的案例不再是客户现实情况的代表性样本——它们是残余物，是 AI 无法解决的案例。而这些残余物比平均水平要沉重得多。

浏览器 Agent 会话泄漏：当单个 Profile 服务于多个租户时

2026年5月10日 · 阅读需 12 分钟

Tian Pan

Software Engineer

一个计算机使用型智能体（computer-use agent）在客户的 CRM 上完成了一项任务，工作线程池将浏览器返回到空闲环中，几百毫秒后下一个请求到达，仪表板导航成功——唯一的问题是，它是作为错误的用户登录成功的。前一个会话的 OAuth cookie 仍留在配置文件（profile）中。追踪记录显示 navigation succeeded（导航成功）、screenshot captured（截图已捕获）、action performed（操作已执行）。运行日志中没有任何内容表明，智能体正在以一个从未授权过它的用户身份进行操作。

这是浏览器智能体从其构建所用的库中悄然继承的一类故障。无头浏览器（headless browser）框架被设计为每个配置文件仅供一个用户使用，因为这是浏览器三十年来的工作方式。当工作池为了摊销全新的 Chromium 实例长达八秒的冷启动时间而重用配置文件时，这种“单用户”假设就破裂了，而且这种破裂对于团队通常信任的每一层遥测数据来说都是不可见的。

评估天花板：当你的黄金测试用例失去区分度时

2026年5月10日 · 阅读需 11 分钟

Tian Pan

Software Engineer

一年前，你的评估套件（eval suite）表现得非常出色。候选模型的得分分布在 60 到 80 分之间，排名结果能为你提供有效的参考。新的微调模型比基准模型高出 6 分；更廉价的模型则低了 3 分。决策依据这些数字而产生。而今天，在同样的评估套件下，每个候选模型的得分都是 95、96 或 97 分，得分差距已经缩小成了噪音。你的团队仍在运行评估，仍在阅读报告，仍在利用它为迁移亮绿灯——但这份报告已经不再包含任何有效信息。

这不是基准测试污染（benchmark contamination），也不是世界漂移引起的衰减（world-drift decay）。这是一个测量工具的问题：你的测试用例是针对平台已经超越的难度水平而校准的。尺子没有坏；而是你正在测量的东西已经超出了它的量程。那些没有意识到这一点的团队，仍然在使用一个辨别范围与所比较的候选模型不再重叠的工具来进行模型决策。

评估数据集是附带正确答案的客户数据

2026年5月10日 · 阅读需 13 分钟

Tian Pan

Software Engineer

你的黄金评估集（Golden eval set）是一个你的安全团队甚至不知道其存在的隐私边界。它是通过对生产环境的 Trace 进行采样构建的，这意味着它是一系列精心挑选的真实客户查询集合——通常包含姓名、电子邮件、账号、愤怒的通话记录、输入了一半的信用卡卡号——并配有标准正确回复，最后提交到评估流水线读取的任何存储桶中。

最后一部分正是评估数据具有独特危险性的原因。原始的生产 Trace 之所以敏感，是因为它记录了客户所说的话。而评估案例则以一种全新的方式变得敏感，因为它记录了客户所说的话 加上标注的正确答案。这个标签是一个衍生作品，由某人（通常是标注员或领域专家）有目的地添加。它标志着“这是标准答案”。它赋予了 Trace 原始日志从未有过的生命力——日志保留策略最终会将 Trace 轮转删除，但评估案例现在成为了一个永久的测试 fixture（固定数据），团队致力于保持其测试通过（keeping green）。

备用方案变成了默认方案：为什么你的分层配比需要 SLO

2026年5月10日 · 阅读需 12 分钟

Tian Pan

Software Engineer

仪表盘显示 0.5% 的请求触发了回退（fallback）。仪表盘这么显示已经持续六个月了。直到有人从头重新运行遥测数据（telemetry），发现次级模型正承载着 38% 的流量，而预设回复（canned-response）层级则处理了另外 9% 的流量。团队在路线图评审中一直讨论的尖端模型“主路径”，实际上已沦为少数派体验。没有人注意到这一点，因为没有任何警报被触发 —— 每次降级都是一个小规模的、理由充分的、局部正确的决定，而累积的偏差从未超过任何人事先设定的阈值。

这就是我想要定义的失效模式：成了默认项的回退机制。这不是故障，也不是单个组件的回归。它是产品表面的缓慢轮转，退而求其次的路径不再是安全网，而成了核心体验。团队的心理模型与生产现实渐行渐远，而这种差距是隐形的，因为现有的度量指标（meters）旨在检测失败，而非检测组合（mix）。

我要提出一个更强有力的观点：如果你的 AI 功能拥有两个以上的服务层级，那么你的层级组合（tier mix）本身就是一个 SLO。如果你没有测量它，你其实并不知道你发布了什么。

流式推理中的海勒姆定律：节奏、停顿和中间 Token 是未成文的契约

2026年5月10日 · 阅读需 12 分钟

Tian Pan

Software Engineer

一个团队从前沿模型升级到了其更快的后继版本。评估套件（eval suite）全绿。最终答案一致。工具调用的 Schema 完全相同。结构化输出通过了与以往一样的 JSON Schema 验证。他们发布了。不到一天，支持票据就堆积如山：“助手感觉太匆忙了”，“它不再真正思考了”，“感觉不对劲”。产品经理调取了遥测数据，发现任务完成率没有变化。工程团队反复检查了评估和 Schema，没发现任何问题。投诉是真实的，但团队定义的契约——就如团队所定义的那样——依然完好无损。

改变的是流的纹理（texture）。旧模型在调用工具前会停顿 800 毫秒，发出一句“让我查一下……”的前导词，并以每秒约 35 个 Token 的速度输出，在子句边界处有自然的节奏。新模型以每秒 90 个 Token 的速度输出，从不停顿，且完全跳过了前导词。这些都没有出现在任何文档记录的契约中。但所有这些都是不可或缺的“承重”部分。

这就是海勒姆定律（Hyrum's Law），而流式传输（streaming）让它的表面积变得巨大。系统的任何可观察行为都会被某人所依赖——而流式 AI 界面暴露的可观察行为远比团队意识到的要多。

混合 PR 队列：审查者吞吐量已成为瓶颈约束

2026年5月10日 · 阅读需 10 分钟

Tian Pan

Software Engineer

在过去的二十年里，制约理论（Theory of Constraints）在软件交付中的答案始终如一：瓶颈在于编写代码。我们围绕这一假设构建了一切——结对编程、IDE 自动补全、更快的 CI、更小的微服务，所有这些都是为了让更多的代码通过固定宽度的审阅管道。接着，编程 Agent 出现了，管道的生产端拓宽了 5–10 倍，而审阅管道的宽度却纹丝不动。一位过去每周提交 3 个 PR 的资深工程师，现在正监督着一群在一个下午就能提交 30 个 PR 的智能体。团队的交付速度不再取决于编写代码的速度，而是取决于人类阅读代码的速度。

这并非未来的问题。据测量，在某些样本中，PR 审阅时间的中位数同比增长了 441%，并且在未经任何审阅的情况下就被合并的 PR 增加了 31%——这并非出于政策规定，而是因为审阅者已经放弃了跟上进度。Stripe 每周交付超过一千个由 Agent 生成的 PR。在一项基准测试中，特性分支（feature-branch）的吞吐量同比增长了 59%，而主分支（main-branch）的吞吐量却下降了 7%——代码正在被编写，但没有被发布，因为它们卡在了审阅环节。

序言：Palm Pilot 创始人寻找大脑奥秘​

第一章：人工智能​

第二章：神经网络​

第三章：人类大脑​

第四章：记忆​

属性一：模式序列​

属性二：自结合检索​

属性三：不变性表征​

第五章：智能新框架​

第六章：皮质如何运作​

嵌套的世界，层级的皮质​

序列中的序列​

皮质区域内部​

感知与行为是一回事​

顶层的海马体与向上的备选路径​

2026 年工程师的审计​

第七章：意识与创造力​

动物有智能吗？智能是一个连续体​

创造力是通过类比进行的预测​

有些人比其他人更有创造力吗？先看后天，再看先天​

你能通过训练让自己更有创造力吗？​

创造力会误导你吗？虚假类比是天才的代价​

意识是什么？长岛的一次酒会争论​

心灵、灵魂、幻肢与暗盒中的大脑​

想象力、现实以及关于刻板印象的警告​

2026 年工程师对第七章的审计​

第八章：智能的未来​

“铁马”问题：每项新技术都被旧镜片误读​

我们能造出来吗？能。它们看起来像人吗？不。​

两个难题：容量与连通性​

我们应该造吗？恐惧清单与霍金斯的驳斥​

四大扩展优势：速度、容量、可复制性、感官系统​

多久？先慢后快。​

2026 年工程师对第八章的审计​

结语：萨根式的惊叹与开启一个行业的号召​

一名在职工程师的感悟​

关于 Tian Pan

序言：Palm Pilot 创始人寻找大脑奥秘

第一章：人工智能

第二章：神经网络

第三章：人类大脑

第四章：记忆

属性一：模式序列

属性二：自结合检索

属性三：不变性表征

第五章：智能新框架

第六章：皮质如何运作

嵌套的世界，层级的皮质

序列中的序列

皮质区域内部

感知与行为是一回事

顶层的海马体与向上的备选路径

2026 年工程师的审计

第七章：意识与创造力

动物有智能吗？智能是一个连续体

创造力是通过类比进行的预测

有些人比其他人更有创造力吗？先看后天，再看先天

你能通过训练让自己更有创造力吗？

创造力会误导你吗？虚假类比是天才的代价

意识是什么？长岛的一次酒会争论

心灵、灵魂、幻肢与暗盒中的大脑

想象力、现实以及关于刻板印象的警告

2026 年工程师对第七章的审计

第八章：智能的未来

“铁马”问题：每项新技术都被旧镜片误读

我们能造出来吗？能。它们看起来像人吗？不。

两个难题：容量与连通性

我们应该造吗？恐惧清单与霍金斯的驳斥

四大扩展优势：速度、容量、可复制性、感官系统

多久？先慢后快。

2026 年工程师对第八章的审计

结语：萨根式的惊叹与开启一个行业的号召

一名在职工程师的感悟