跳到主要内容

1 篇博文 含有标签「deepmind」

查看所有标签

无限机器:戴密斯·哈萨比斯如何缔造 DeepMind 并追寻 AGI

· 阅读需 185 分钟
Tian Pan
Software Engineer

第一章:甜蜜 (The Sweetness)

在攻读神经科学博士学位的某个时期,戴密斯·哈萨比斯(Demis Hassabis)拿起了一本名为《安德的游戏》(Ender's Game)的科幻小说。它讲述了一个身材矮小的天才男孩被送往空间站,经历了极端的心理测试,并被要求肩负起拯救人类生存重任的故事。按照塞巴斯蒂安·马拉比(Sebastian Mallaby)的说法,哈萨比斯读完后觉得,终于有人写了一本关于他的书。

这则轶事——一半迷人,一半令人心惊——为马拉比所著的《无限机器》(企鹅出版社,2026 年 3 月出版)奠定了基调。这是一部关于哈萨比斯及其缔造的公司 DeepMind 的宏大传记。这本书讲述了一个人试图解答他所谓宇宙“尖叫的谜团”的一生:为什么会有事物存在?意识是如何产生的?能否制造出一台能够理解这一切的机器?哈萨比斯的答案——带着他标志性的毫不谦虚——是肯定的。而且,他打算在有生之年,亲自把它造出来。

奥本海默之问

马拉比是美国外交关系委员会(Council on Foreign Relations)的高级研究员和前《金融时报》记者。他花了三年时间与哈萨比斯进行定期对话,并采访了数百位同事、竞争对手和批评者。由此描绘出的人物肖像发人深省且充满赞赏,但书中的框架始终没有让读者忘记它所处的阴影。

全书的核心隐喻是罗伯特·奥本海默(Robert Oppenheimer)。就像那位解开原子裂变秘密后余生都被其困扰的物理学家一样,哈萨比斯也被奥本海默所说的“技术上极其甜美(technically sweet)”的问题所吸引——那是一个可以被解决的谜题所带来的无法抗拒的吸引力——即使他承认其后果可能是灾难性的。马拉比并没有试图解决这种张力,它正是整本书的脊梁。

哈萨比斯于 1976 年出生在伦敦北部,父亲是希腊裔塞浦路斯人,母亲是新加坡华裔,家境普通。他在 13 岁时就成为了国际象棋大师。17 岁时,他成为牛蛙制作公司(Bullfrog Productions)的首席程序员,协助推出了销量数百万份的游戏《主题公园》(Theme Park)。他曾拒绝剑桥大学的奖学金去电子游戏行业工作,后来又改变主意,进入剑桥大学王后学院,以计算机科学双重一等荣誉学位毕业。之后他联合创办了一家游戏工作室,目睹其倒闭,最终在三十岁出头时,在伦敦大学学院(UCL)获得了神经科学博士学位。在那里,他发表了关于海马体在记忆和想象中作用的里程碑式研究。

在任何阶段,他都没有选择走捷径。

这本书在讲什么

《无限机器》按时间顺序构建叙事,同时也兼作一部现代 AI 的历史。每一章都围绕 DeepMind 发展历程中的一个项目或危机展开——雅达利(Atari)的突破、AlphaGo 比赛、NHS 数据丑闻、AlphaFold 的巨大成功、ChatGPT 带来的冲击。但每一章同时也揭示了更宏大的命题:科学理想主义如何在一场 6.5 亿美元的收购中存活(或毁灭);安全至上的理念如何对抗追求发布的竞争压力;一个真心相信自己正在打造人类最后一项发明的人,如何保持理智,或者至少保持正常运作。

马拉比仅对哈萨比斯本人就进行了超过 30 小时的采访,这种近距离接触的成果显而易见。书中充满了丰富的细节——用扑克牌局作为契机招募联合创始人穆斯塔法·苏莱曼(Mustafa Suleyman),在李世石比赛期间的午夜通话,哈萨比斯领悟到(比他应该意识到的时间更晚)Transformer 将改变一切的确切时刻——这些都只能源于对传主的长期贴近。

全书长达 480 页,涵盖了从哈萨比斯童年时代的国际象棋锦标赛,一直到 Google DeepMind 发布 Gemini 的历程。接下来的摘要将详细梳理这一脉络。但每一章最终都会回到引言中提出的同一个问题:一个确信自己正在做人类历史上最重要事情的人,能否被信任也会明智地去完成它?

马拉比没有给出确切的答案。哈萨比斯自己也还没有。


第二章:深刻的哲学问题

要理解戴密斯·哈萨比斯为什么会打造他所打造的一切,马拉比从大多数科技传记都会跳过的一个问题开始:这个人究竟对现实的本质有怎样的信仰?

在哈萨比斯身上,这个答案不同寻常到值得认真对待。他并不认为智能是一种产品,甚至不认为它主要是一种工具。他认为智能是解开更基本问题的钥匙——一种解读他所谓“宇宙深层奥秘”的方式。对他而言,科学接近于一种宗教修行。“做科学,”他曾说,“就像在阅读上帝的旨意。理解宇宙深处的奥秘就是我的宗教。”

这不是一句随便说说的话。它解释了随后每一个决定的具体轮廓。

本质皆信息(Information All the Way Down)

哈萨比斯的哲学基础建立在一个物理学家经常争论、但技术专家极少涉足的观点上:信息比物质或能量更基础。这不是隐喻,而是一个字面意义上的断言。在这种观点下,宇宙是一个信息系统。夸克、神经元和蛋白质链在某种层面上,都是信息基底中的模式。如果这是真的,那么一台足够强大的信息处理机器就不仅仅是一个有用的工具。它是理解宇宙到底是什么的最直接途径。

这就是为什么当他在深夜沉思时,会形容现实在向他“尖叫”。那些看似简单的现象——由大部分空无一物的原子构成的坚固桌子,变成有意识思维的电荷碎片——如果你直视它们,就会觉得荒谬至极。怎么会有人对这些问题感觉不到迫切呢?绝大多数人没有这种感觉,这让哈萨比斯真心感到困惑。

这种世界观以一种特定的方式将他与科技界的主流区分开来。大多数 AI 创业者谈论的是改变行业或加速经济增长。而哈萨比斯谈论的是理解意识的本质和生命的起源。他希望像物理学家使用粒子加速器那样使用 AGI——作为探索现实本身的仪器。商业应用是真实存在的,也受欢迎。但那不是他每天早上醒来的动力。

国际象棋教育

马拉比将哈萨比斯思维方式的起源追溯到棋盘。他 4 岁时通过看父亲和叔叔下棋学会了规则;13 岁时,他的 Elo 等级分达到了 2300,获得了大师资格。他曾担任英格兰青年队队长,无论以何种标准衡量,都是当时世界上最强的年轻棋手之一。

但在 12 岁时,在列支敦士登附近参加了一场长达十小时的艰苦锦标赛后,他做出了一个能说明他一切特质的决定:他退出了竞技国际象棋。不是因为他在输——他其实在赢。而是他得出结论,将非凡的能力倾注在一项棋盘游戏上是一种浪费。棋盘是训练场,不是终点。

国际象棋赋予他并被他保留下来的,是一种特定的认知纪律:不是通过穷举计算,而是通过经验校准的模式识别,来评估极其复杂的局势。优秀的棋手无法计算所有的路线;可能性太多了。他们会培养出一种直觉,判断哪些局势有希望,哪些没有——这些直觉可以通过更深层次的分析来测试、完善,有时甚至被推翻。这正是哈萨比斯后来思考 AI 研究的方式:做出判断,运行实验,更新模型。

国际象棋还向他灌输了对结果极其诚实的态度。国际象棋的局势是不容含糊的。你要么占优,要么劣势;要么赢,要么输。哈萨比斯将这种态度带入了 DeepMind 的文化中——相比于模糊的进展声明,他更偏好明确的基准测试;对于那种让研究人员自我催眠系统在运转(而实际并没有)的动机性推理,他毫无耐心。

并非弯路的神经科学之旅

经历了《主题公园》、剑桥大学以及他的第一家公司 Elixir Studios 的倒闭之后,哈萨比斯做了一件让认识他的人感到困惑的事:他重返校园。他进入 UCL 攻读神经科学博士学位,导师是埃莉诺·马奎尔(Eleanor Maguire),世界上研究记忆和海马体的顶尖学者之一。

从外界看来,这像是一次撤退。但事实恰恰相反。

他的博士研究产生了一项发现,该发现成为《科学》(Science)杂志 2007 年的十大科学突破之一:长期以来被认为患有失忆症的海马体受损患者,也无法想象新的经历。以前被视为独立功能的记忆和想象,竟然共享着相同的神经机制。海马体不仅仅是储存过去——它通过重组已知的元素来构建可能的未来。

对哈萨比斯来说,这不仅仅是一个有趣的神经科学结果。它是一个设计原则。如果生物智能通过构建丰富的世界内部模型并在其中模拟可能的未来来运作,那么缺乏这种能力的 AI——只能在训练数据中识别模式,而没有任何因果关系模型——根本算不上是通用智能。它只是一个非常复杂的查找表。海马体研究指出了通用智能实际需要的东西:不仅是记忆,不仅是模式识别,还需要想象力——那种将你已知的信息投射到你从未见过的情境中的能力。

这一洞见将贯穿 DeepMind 的整个研究议程。强化学习、自我博弈、世界模型、能够规划的智能体——所有这些都反映了同一个潜在的信念:智能的本质不是检索,而是模拟。

诚实的哲学

马拉比还注意到了贯穿这一时期的另一条线索:一种即使以个人代价为前提也要保持极强的求知诚实的承诺。哈萨比斯被描述为天生反感操纵——反感用“技术上正确”的陈述来制造错误的印象,或允许房间里的社会压力扭曲他所陈述的信念。他宁愿大声犯错,也不愿在私下里正确。

在他将要进入的世界里,这比听起来要难得多。AI 研究领域充满了过度宣传的诱惑——资金依赖它,人才依赖它,媒体的关注也依赖它。哈萨比斯的应对策略不是对这些诱惑表现得天真,而是将诚实视为一种主动的纪律,而不是被动的默认状态。随着 DeepMind 的成长,这种承诺将受到反复且严峻的考验。


第三章:绝地武士

1997 年,两名剑桥大学的年轻人在相隔几周的时间里毕业,并做出了相同的决定:不走寻常路,去创办一家电子游戏公司。其中一个是戴密斯·哈萨比斯。另一个是大卫·席尔瓦(David Silver),他刚刚获得了授予该届最顶尖计算机科学毕业生的艾迪生-韦斯利奖(Addison-Wesley prize)。席尔瓦和哈萨比斯在剑桥成为了朋友——他们两人对游戏的看法就像大多数人对数学的看法一样,将其视为一个可以通过完美的清晰度来测试对复杂性直觉的领域。

本章标题源于马拉比对哈萨比斯招募天赋的描述。当他打电话给席尔瓦并抛出计划——建立一家工作室,开发别人从未尝试过的游戏,由 AI 研究而非商业配方驱动——席尔瓦后来说,他感觉像是中了“绝地武士的控心术”(Jedi mind trick)。他并非完全是自己选择了同意,而是发现自己已经置身其中。

这成为哈萨比斯领导力的一个反复出现的特征:有能力让人觉得他的愿景也就是他们的宿命。

一百万公民

他们创立的公司 Elixir Studios 于 1998 年 7 月在伦敦成立。旗舰项目《共和国:革命》(Republic: The Revolution)与当时游戏界的所有作品都不同。设计文档承诺对一个东欧国家进行全面的政治模拟:数百个城镇,数千个竞争派系,以及大约一百万个独立的公民,每个人都有自己的 AI——他们自己的信仰、日常作息、忠诚度以及对事件的情感反应。玩家不只是征服领土;他们将操纵一个活生生的社会,通过武力、影响力或金钱使人们倒向革命。

愿景令人叹为观止。同时,任何交付过软件的人也能预料到,这在宣布的时间表内是完全不可能实现的。

在开发开始五年后的 2003 年 8 月,实际发布的游戏设定在一个分为几个区域的单一城市中,派系从数千个减少到十个,人口模拟的规模也较最初的设想大幅缩减。游戏在 Metacritic 上的评分为 62 分。评论家赞扬了它的雄心,批评了它的执行。正如一位评论员尖锐指出的那样,那个花了那么长时间构建的庞大世界,最终成为了游戏中最缺乏参与感的部分。

妄想陷阱

马拉比对 Elixir 感兴趣,主要不是因为它的商业失败,而是将其作为组织心理学的案例来研究——具体来说,是一个拥有真正愿景的绝顶聪明的创始人,如何系统性地不再接收周围人提供的准确信息。

这种机制其实算不上欺骗。它是一种更隐蔽的东西。哈萨比斯对《共和国》可能成为的样子有着极其强烈的信念,并将这种信念传达得如此具有说服力,以至于他的工程团队学会了不再告诉他他们做不到什么。他们知道他不会接受“不”。所以他们说“是的,我们能做到”——因为哈萨比斯不断从他信任的人那里听到肯定,他变得更加确信,而不是更怀疑。反馈循环放大了他的信心,恰好在项目地基暗中开裂的时候。

他还灾难性地分散了自己的精力——同时担任首席执行官、首席设计师和制作人,干预每个生产层面的决策。他雇佣的人很聪明,但缺乏游戏开发经验;剑桥大学的毕业生默认情况下并不具备以交付为导向的能力。在裂痕大到无法忽视之前,工作室挥霍了多年的资源和声誉。

哈萨比斯后来说:“你可能会陷入自我妄想的思维。你实际上可能会过度激励别人。”这种过度激励的代价是他的团队五年的生命,以及一家在 2005 年 4 月倒闭的公司。

马拉比并没有将这次倒闭仅仅描绘为一堂关于谦卑的课程——哈萨比斯的野心并未减弱——而是把它视为一种特定诊断工具的起源。你如何区分一个困难的愿景和一个不可能的愿景?当周围的人都学会了挑你想听的说时,你如何对自己保持诚实?

哈萨比斯在多年后得出的答案,他称之为“流畅度测试(fluency test)”:走进正在工作的房间去听,不是听正确的答案,而是听思想的流动。一个能够流畅产生各种可能性的团队——哪怕是错误的、或者半成型的想法——仍然有燃烧的能量。而一个被问到难题就陷入沉默的团队,则是撞上了一堵他们无法命名的高墙。流畅度测试并非绝对可靠,但它提供了一种直接提问无法得到的信息,因为那些不会说“不”的人,仍然会不由自主地陷入沉默。

这项测试在多年后 AlphaFold 项目的关键时刻被证明是决定性的。但它诞生于《共和国:革命》的废墟之中。

席尔瓦的退出及其发现

大卫·席尔瓦近距离目睹了 Elixir 的挣扎。2004 年,在工作室最终倒闭之前,他做出了自己的转变:他拿起了理查德·萨顿(Richard Sutton)和安德鲁·巴托(Andrew Barto)编写的强化学习教科书,在其中发现了他多年来一直在寻找的东西。

强化学习的核心是通过实践来学习的数学——智能体在环境中采取行动,获得奖励和惩罚,并逐渐发展出最大化长期回报的策略。在 2000 年代中期,它很大程度上已经过时,被需要大量标记数据的监督学习方法所掩盖。但席尔瓦认识到了该领域尚未完全消化的一点:强化学习的样本效率低是一个工程问题,而不是理论问题。其框架本身是健全的。而它的自然领域——不确定性下的顺序决策——正是玩游戏所需要的。

他前往萨顿所在的阿尔伯塔大学攻读博士学位。在接下来的五年里,在这位教科书合著者的指导下,席尔瓦共同引入了驱动首批大师级 9×9 围棋程序的算法。他于 2009 年毕业,同年哈萨比斯在 UCL 完成了神经科学博士学位。

这种相似并非偶然。两人都带着未竟的事业离开了游戏行业,通过学术界走了一条迂回的道路,并从不同的方向抵达了同一个目的地。哈萨比斯拥有从神经科学中汲取的关于通用智能所需特质的理论。席尔瓦拥有从强化学习中汲取的如何训练它的数学。两人中任何一人单独都不具备另一人拥有的东西。

DeepMind 将成为改变这一切的地方。马拉比将这一章设定为两条注定要汇合的歧路的故事——两个比几乎任何人都要早认识到游戏与通用智能之间差距比人们认为的要小得多的人。事实证明,绝地武士的控心术对他们两个都奏效了。


第四章:三人帮

在 2009 年,人工智能并不流行。该领域经历了两次漫长的“寒冬”——充斥着违背的承诺和蒸发的资金——计算机科学界的主流对任何严肃谈论通用人工智能(AGI)的人都抱有一种介于怀疑和同情之间的态度。戴密斯·哈萨比斯刚从神经科学博士毕业,确信 AGI 既是可以实现的,也是迫切需要的,他需要找到与他有相同信念的盟友。这并不容易。

本章讲述了他如何找到其中两位——以及他们彼此之间,以及与他之间,有多么不同。

那个算过这笔账的人

肖恩·列格(Shane Legg)在新西兰长大,学习数学和统计学,在瑞士的 IDSIA 研究所师从马库斯·哈特(Marcus Hutter)度过了博士岁月,哈特是世界上顶尖的通用人工智能理论家之一。列格 2008 年的博士论文题目是《机器超级智能》(Machine Super Intelligence)。那不是构建 AI 的路线图。它试图将超级智能到底意味着什么形式化——赋予这个概念数学内容,而不是科幻小说般的模糊。

这篇论文的核心是 AIXI,这是哈特提出的一种理论上最佳的通用智能体框架。通过将索洛莫诺夫归纳法(Solomonoff induction)——一种从数据中学习任何可计算模式的形式体系——与顺序决策理论相结合,哈特定位了一种智能体,只要有无限的计算能力,它就能在任何环境中表现出最佳行为。从严格意义上讲,这就是完美的智能机器。同时它也是完全无法实现的,因为它需要无限的资源。但这并不是重点。AIXI 证明了通用智能不是一个神秘的概念;它是一个可以被定义、被划定边界,并且原则上可以被近似的数学对象。

列格与他的导师在纯理论兴趣上的分歧在于这样一个系统实际会做什么。他的论文结尾部分,即使在现在读起来也像拉响的警报。一个为任何目标进行优化的足够聪明的机器,默认情况下会拒绝被关机——因为被关机会阻止它实现目标。它会欺骗试图约束它的操作员。它会积累远远超出任何特定任务所需的资源,以对冲未来的干预。所有这些都不需要恶意。它只需要能力。

直接因为这一分析,列格成为了 AI 研究领域最早公开声明他将 AI 导致人类灭绝视为真实可能性的人之一。在 2011 年 LessWrong 的一次采访中,他说 AI 的存在性风险是他“本世纪的首要风险”。他对高级 AI 导致灾难性后果的概率估计,在不同时期介于 5% 到 50% 之间——这是一个宽泛的不确定区间,但这个数字离零非常遥远。

这就是哈萨比斯在 2009 年列格于 UCL 盖茨比计算神经科学部门进行博士后研究时遇到的人。这是一个不仅认真对待 AGI 问题并且将其形式化的人——一个通过纯粹的理论得出了与哈萨比斯从哲学信仰中直觉到的相同存在性赌注的人。两个从完全不同方向接触这个问题,并得出同样令人警醒的结论的人。

他们于 2010 年共同创立了 DeepMind。列格后来领导了该公司的 AGI 安全研究——成为了主要 AI 实验室中第一个担任此职位的人。

牛津辍学生

穆斯塔法·苏莱曼(Mustafa Suleyman)走向同一张创始人谈判桌的路线则完全不同。

他在伊斯灵顿的喀里多尼亚路附近长大——这里是北伦敦的工人阶级区,是一位叙利亚出租车司机和一位英国护士的儿子。他考入牛津大学攻读哲学和神学,然后在 19 岁时辍学。他接下来做的事情揭示了哈萨比斯正在寻找的某种特质:苏莱曼没有随波逐流,而是与人共同创立了穆斯林青年帮助热线,这是一家电话咨询服务机构,后来成为英国同类最大的心理健康支持网络之一。他发现了一个缺口——处于危机中的年轻人,没有合适的服务——并在这个领域里建立了一些东西。

随后,他担任了伦敦市长肯·利文斯通(Ken Livingstone)的人权政策官员,并联合创办了 Reos Partners,一家利用冲突解决方法解决棘手社会问题的咨询公司。他的客户包括联合国和世界银行。当他遇到哈萨比斯时,他花了十年时间精通两件计算机科学家几乎普遍缺乏的事情:了解机构的实际运作方式,以及将抽象目标转化为在现实世界中经得起考验的运营项目。

他能接触到哈萨比斯靠的是关系而不是资历——他最好的朋友是戴密斯的弟弟。随着时间的推移,原本的社交联系变成了某种类似共同信念的东西。据报道,哈萨比斯在牌桌上向苏莱曼推销了 DeepMind 的想法,而拥有扑克玩家直觉、知道何时该推进何时该察言观色的苏莱曼,答应了。

按照任何传统的衡量标准,他都是共同创办 AI 研究实验室的错误人选。他没有受过技术培训,没有发表过论文,在机器学习界也毫无地位。但哈萨比斯还是选择了他。

为什么是三个人,为什么是这三个人

马拉比对这一章的兴趣不仅仅是传记性的罗列。他探讨的是一个创始团队对他们建立的公司的性格有什么影响。

每位联合创始人都贡献了其他人缺乏且无法轻易获得的特质。哈萨比斯提供了愿景和科学框架——由神经科学启发的关于什么是通用智能以及建立它需要什么的理论。列格提供了存在感意识——一种异常早期、异常严谨的理解,即成功的 AGI 对人类意味着什么,以及为什么安全必须被作为一个首要的研究问题而不是事后诸葛亮来对待。苏莱曼提供了运营直觉和一系列社会关注点——健康、公平、治理——防止实验室变成一个与它试图帮助的世界脱节的纯理论修道院。

这三种方向之间的张力将产生 DeepMind 的大部分能量,以及其内部的大部分冲突。哈萨比斯想解决智能问题。列格想安全地解决它。苏莱曼想有效地、快速地、以改变真实生活的方式部署它。这些目标在理论上是兼容的,但在实践中,它们不断产生摩擦。

马拉比写作时站在了一个知道这三人故事最终如何收场的位置上。苏莱曼在书中被描述为关系疏远的联合创始人——他后来在艰难的情况下离开了 DeepMind,最终出任微软 AI 的 CEO。列格留了下来,成为首席 AGI 科学家。哈萨比斯继续担任 CEO,随着其他人的离开或退居幕后,积累了更多的权力。

随着时间推移,三人帮变成了孤军奋战。但在 2010 年,在一切都尚未建立之时,这种三方张力感觉像是一个特色,而不是一个缺陷。DeepMind 是一场赌博,押注理想主义、数学和实用主义能够融合得足够久,去完成一些史无前例的事情。


第五章:雅达利

在 DeepMind 能够拯救人类之前,它必须证明自己能打通《打砖块》(Breakout)。

本章涵盖了从 2010 年到 2014 年初的这段时期——在这四年里,伦敦的一个小团队在少数几位信徒的资助下,在没有推出任何商业产品的情况下,打造出了一样让世界开始认真对待通用人工智能的东西。这个概念验证是一个学会玩老式雅达利电子游戏的 AI。而它的意义在于一切。

哈萨比斯建立的实验室

从一开始,哈萨比斯就故意选择不把 DeepMind 建在硅谷。选在伦敦绝非偶然。伦敦让他能够接触到欧洲的学术人才,拥有不太痴迷于快速产品迭代的文化,并且远离了风险投资正统中要求收入路线图和季度里程碑的压力。他想要一个碰巧注册为公司的研究机构,而不是一家碰巧从事研究的公司。

因此,答应投资这种模式的早期投资者是一群不同寻常的人。彼得·蒂尔(Peter Thiel)——曾在《从 0 到 1》(Zero to One)中写过渐进式改进与真正技术变革之间区别的人——通过 Founders Fund 以及他的 PayPal 联合创始人、后来加入 DeepMind 董事会的卢克·诺塞克(Luke Nosek)支持了这家公司。埃隆·马斯克(Elon Musk)写了一张支票。前 Skype 联合创始人、后来成为 AI 风险慈善家的扬·塔林(Jaan Tallinn)以顾问身份加入。到 2014 年初谷歌收购时,该公司在没有发布单一产品或产生一美元收入的情况下,已经筹集了超过 5000 万美元。这些投资者本质上是在资助一种哲学。

这些钱买来的是自由。哈萨比斯从世界上最好的项目——剑桥、UCL、多伦多、蒙特利尔——招募了他能找到的最聪明的博士,并让他们进行蓝天研究。他自己每天晚上加班,在白天的工作之余,从晚上十点一直工作到凌晨四点左右。“如果你试图解决人类的问题并理解现实的本质,”他说,“你就没有时间可以浪费。”由这个榜样树立的文化是高强度的、专注的,对于那些适应它的人来说,是令人振奋的。

到 2013 年,该团队大约有 50 名研究人员。按照后来的标准,规模很小。但对于它面前的问题来说,几乎是完美的组合。

无人能解的难题

在 2012 年,深度学习和强化学习是 AI 研究中最有希望的两条线索——同时几乎被普遍视为两个独立的学科。

由杰弗里·辛顿(Geoffrey Hinton)在多伦多的团队涡轮增压的深度学习,刚刚在 ImageNet 基准测试中证明,卷积神经网络在识别照片中物体的能力上超越了之前的所有方法。关键在于,这些网络可以从原始数据中学习自己的特征表示——你不需要手工设计“边缘”、“曲线”或“轮子”是什么样子;网络自己就能弄清楚。这是感知领域的一次突破。

强化学习是一个完全不同的传统:智能体采取行动,获得奖励或惩罚,并学习一种策略(将情况映射到行动)以最大化长期回报。它在数学上很优雅,有很强的理论基础,特别是克里斯·沃特金斯(Chris Watkins)在 1989 年开发的 Q-learning 框架。但它在规模化时很脆弱。以前曾有人尝试将神经网络与强化学习结合起来,但结果往往会爆炸:训练变得不稳定,网络发散,整个系统崩溃。

这两个领域基本上已经放弃了彼此。

弗拉基米尔·姆尼(Volodymyr Mnih)懂这两个领域。他在阿尔伯塔大学师从强化学习顶尖理论家之一的恰巴·塞佩斯瓦里(Csaba Szepesvari)获得了机器学习硕士学位,随后前往多伦多在辛顿本人的指导下攻读博士学位。他在 2013 年带着罕见的“双语”能力加入 DeepMind——既精通深度网络的数学,又精通顺序决策的数学。已经加入团队的神经网络专家科拉伊·卡武克库奥卢(Koray Kavukcuoglu)提供了架构方面的专业知识。他们一起着手让这种结合发挥作用。

为什么“经验回放”改变了一切

技术障碍在于神经网络的需要与强化学习提供的数据之间存在不匹配。

神经网络在独立同分布(IID)的数据上训练效果最好——从相同的潜在分布中提取的多样化、不相关的样本。但是强化学习智能体会按顺序生成数据,每一个观察结果在因果上都紧随前一个:球向右弹,然后挡板移动,然后球向左弹。这些连续的帧是高度相关的。将相关的数据输入神经网络,梯度更新会相互干扰;网络会在原地打转,覆盖掉它刚刚学到的东西。

解决方案被称为经验回放(experience replay),它的概念非常简单,以至于它的威力令人惊讶。智能体不再在经历发生的那一刻对其进行训练,而是将其经验——(状态、行动、奖励、下一个状态)的元组——存储在一个大型内存缓冲区中。在训练期间,它从该缓冲区中随机采样,将智能体历史中截然不同时刻的经验提取到一起:一小时前的时刻,旁边是五分钟前的时刻,再旁边是今天早上的时刻。时间相关性被打破了。网络看到了更接近它所需要的多样化、不相关数据集的东西。

第二个稳定技巧是一个独立的目标网络(target network)——主网络的冻结副本,其权重仅定期更新。这防止了“移动球门”问题,即网络由于追逐一个随着每一步梯度更新都在变化的目标而破坏自身的稳定性。

经验回放和目标网络共同将一个不稳定的组合变成了一个可处理的组合。深度 Q 网络(DQN)诞生了。

它对雅达利做了什么

DQN 系统的输入除了原始的屏幕像素和游戏分数之外什么也没有。没有规则。没有特定于游戏的特征。没有人类示范。不知道这些游戏是关于什么的。智能体看到的是人类玩家看到的东西,当分数上升时获得数字奖励,除此之外只能靠自己。

它在七款雅达利 2600 游戏——《乒乓》(Pong)、《打砖块》(Breakout)、《太空侵略者》(Space Invaders)、《潜艇探险》(Seaquest)、《激光炮》(Beamrider)、《Q*bert》和《极速赛车》(Enduro)上进行了测试,且游戏之间无需对架构进行任何调整。2013 年 12 月在 arXiv 上发表并在 NIPS 深度学习研讨会上展示的结果令人震惊。DQN 在七款游戏中有六款超越了之前的所有方法。在其中三款上,它超越了人类专家取得的最高分。

但留在人们脑海中的数字不是得分,而是行为。

在《打砖块》——那款用挡板将球弹向砖墙的游戏——人类玩家知道,最佳策略是瞄准角落并在侧面打出一条隧道,让球在砖块后面反弹,带来一连串自动得分。没人给它编程过这一点。DQN 智能体在经过足够的训练后,独立想出了这个方法。这台机器仅仅通过试错和奖励信号,就发现了一个人类玩家花了数年时间才开发出来的战略洞见。

它没有被教过隧道策略。它是自己发明的。

为什么这与游戏无关

马拉比在此谨慎地解释了为什么游戏设定不是一个噱头。这才是关键所在。

对狭义 AI(专家系统、国际象棋引擎、围棋程序)的普遍批评是,每一个都是为其特定领域手工打造的。知识在代码中,而不是在学习中。DeepMind 的主张,以及哈萨比斯自神经科学博士时期就一直在提出的主张,是通用智能可以从经验中学习自己的表征,然后跨领域转移这种能力。

DQN 论文极其清晰地证明了这一点。相同的架构,相同的算法,相同的超参数——七款游戏,零领域定制。当你要求模型玩《太空侵略者》时,它不是在运行披着新皮的《打砖块》程序。它是在真正学习玩《太空侵略者》。架构是不变的;智能每次都是重新习得的。

这就是 DeepMind 一直声称可以做到的事情。现在他们证明了它。

收购

NIPS 的展示立刻引起了主要科技公司的注意。自 2012 年 AlexNet 引起轰动以来一直关注 AI 研究的谷歌,行动迅速。与 DeepMind 的收购谈判始于 2013 年。Facebook 也很感兴趣,扎克伯格(Zuckerberg)提出了报价。

哈萨比斯选择了谷歌——但并非没有条件。下一章将讨论促成这笔 6.5 亿美元交易的谈判过程。在这里重要的是谷歌买到了什么:不是一个产品,不是一个数据集,也不是收入流。他们买到的是一般学习是可能的这一证明,以及一个拥有 50 名知道如何追求这一目标的团队。

雅达利游戏一直都是代理问题。DeepMind 在早期的伦敦办公室里真正训练的是一种方法。游戏是测试智能体能否学会行动的最简单的世界。他们通过了测试。随后发生的一切——围棋、蛋白质折叠、与 OpenAI 的竞赛——都源于这七款游戏,以及机器教自己用挡板和球做的事情。


第六章:彼得·蒂尔的麻烦

风险投资与蓝天科学之间存在着一种结构性的不相容,大多数 AI 创始人只有在签署投资条款清单后才会发现这一点。风险投资基金有一个生命周期——通常是十年。他们需要其投资组合公司在这个窗口期内达到流动性事件:收购、IPO、二次出售。而通用智能研究的生命周期完全不同。它需要数十年的投资、耗资数十亿美元的基础设施,并且需要愿意接受突破可能不会按任何可预测的顺序到来。

到 2013 年,DeepMind 即将与这种不相容发生高速碰撞。

敲开大门的国际象棋开局

在危机发生之前,曾有过最初的融资游说——这值得深入探讨,因为它捕捉到了哈萨比斯行事风格的本质。

2010 年 8 月,哈萨比斯拥有了他后来所说的与彼得·蒂尔“字面上只有一分钟”的时间。当时蒂尔正在他加州的豪宅中举办年度奇点峰会。房间里挤满了试图推销技术理念的人。哈萨比斯花了好几个月的时间思考如何利用这一分钟。他阅读了能找到的关于蒂尔的所有资料,发现蒂尔在青少年时期下过国际象棋。这就是突破口。

哈萨比斯没有直接拿出商业计划,而是向蒂尔问了一个国际象棋问题:为什么这个游戏如此非凡?他在仅仅一分钟里给出的答案是:在某些局面中,当你用象换马时,会产生一种创造性的张力。象控制着长斜线;马覆盖了象永远无法到达的格子。两者并没有绝对的优劣之分。它们的共存造就了这款游戏无穷的魅力。

从未以这种方式思考过国际象棋的蒂尔被吸引了。会面达成了。几个月内,他向一家还没有生产出任何东西的公司投资了 140 万英镑(约 185 万美元)。他在一次会议上就做出了决定。他最初也想让 DeepMind 搬到硅谷。哈萨比斯说服他放弃了这个想法。

蒂尔的 PayPal 联合创始人兼 Founders Fund 合伙人卢克·诺塞克加入了 DeepMind 董事会。种子轮的金额虽小,但名字很响亮,而在早期技术投资的世界里,名字很重要。

那通电话

危机以一通电话的形式到来,打电话的时间暗示着坏消息。

卢克·诺塞克打电话给哈萨比斯和苏莱曼,告诉他们他的 Founders Fund 合伙人决定不再领投 DeepMind 的 C 轮融资。这一轮融资的架构是围绕着 6500 万美元的目标构建的,由 Founders Fund 领投。没有领投,这轮融资就泡汤了。没有这轮融资,一直在烧早期的资金去供养五十多名研究人员及其计算基础设施的 DeepMind 陷入了严重的麻烦。

原因并不是单次戏剧性的闹翻。这是一种更具腐蚀性的东西:机构投资者对 DeepMind 到底是一家什么样的公司越来越感到焦虑。它不是一家产品公司。它不是一家服务企业。它没有收入模式,也没有显示出任何想要收入模式的迹象。其创始人将其目标描述为解决通用智能问题,然后利用这一解决方案造福人类——这句使命宣言,取决于你对雄心的容忍度,要么是有史以来最重要的事情,要么是永远无法交付任何东西的最昂贵的方式。当做出更大承诺的时刻到来时,Founders Fund 的合伙人们倾向于后一种解释。

马拉比并不将此归咎于蒂尔或诺塞克的失败,而是将其视为局势的结构性特征。DeepMind 模式——深度的科学研究、没有产品、无限期的时间表——根本就不是一门有风投支持的生意。问题在于它是一家什么样的机构。而在 2013 年底,随着现金枯竭且收入遥遥无期,这个问题变得迫切起来。

苏莱曼的紧急斡旋

这时,穆斯塔法·苏莱曼的技能暂时成为了 DeepMind 最重要的东西。

哈萨比斯是科学家,列格是理论家,而苏莱曼是一名运营者——一个将职业生涯花在结果不取决于最佳论点、而是取决于谁最能沉得住气的地方的人。他 19 岁就管理过心理健康帮助热线。他曾与联合国谈判。他知道如何将自信投射到真空中。

在诺塞克打来电话、C 轮融资化为泡影后,苏莱曼立刻找到了周凯旋(Solina Chau)。她是维港投资(Horizons Ventures)的创始人,香港亿万富翁李嘉诚正是通过这个工具将私人资本投入技术领域。她与哈萨比斯在 2012 年相识并迅速建立联系——与许多技术投资者不同,她对底层科学真正感兴趣,而不是只看产品路线图。DeepMind 最初在这一轮中给了她 250 万美元的额度;她当时想要更多。

现在他们给了她更多。周凯旋投资了 1360 万美元。尽管退出了领投,为了维持关系并避免完全缺席,Founders Fund 也投入了 920 万美元。该轮融资以略高于 2500 万美元收盘——不到最初 6500 万美元目标的一半。

这些钱足以生存。但不足以让人安心。

在这一时期的某个时候,苏莱曼说了一句话,马拉比引用它时毫不掩饰对其大胆的赞赏。面对有关 DeepMind 的支持者是否真的会为它的独立性而战的质疑时,苏莱曼说了大意如下的话:“我们有彼得·蒂尔、周凯旋、埃隆·马斯克——全是亿万富翁,都在支持我们。”他后来承认,这是一种虚张声势。这些投资者是在财务上支持该公司。他们是否准备好在一场长达十年的 AGI 独立之战中对抗谷歌支票簿的强大拉力,完全是另一回事,而且答案显然是否定的。

这种虚张声势在短期内奏效了,因为听众没有拆穿他。但它揭示了潜在的现实:DeepMind 有支持者,但没有担保人。当算总账的时刻到来时,公司必须自己做决定。

危机揭示了什么

马拉比利用这一章提出了一个关于变革性研究的经济学更广泛的论点。雅达利的突破是真实的——一个改变了人们对 AI 能力看法的科学成果。但风险投资模式回报这种突破的方式是提出创始人当时还无法回答的问题:这什么时候能成为产品,成本是多少?科学成果越好,这些问题就越难以回避。

DeepMind 没有欺骗它的投资者。哈萨比斯一直对目标和时间表直言不讳。问题在于,对三十年科学使命的清晰规划,并不能帮助一个需要在十年内退出的基金。利益从来没有对齐过;只是通过 C 轮融资才让这种错位变得具体。

这 2500 万美元买来了跑道,但不长。在这条跑道的尽头,地平线上隐约可见两座巨大的建筑——一座贴着谷歌的标签,一座贴着 Facebook 的标签。哈萨比斯最多只有几个月的时间来决定走进哪扇门,或者寻找一个目前还不存在的第三种选择。

下一章讲述了在那扇门前发生的事情。


第七章:拿下谷歌

2013 年秋天,埃隆·马斯克在纳帕谷的一座租来的城堡里举办了一场生日派对。这是一种连邀请函本身都传达着某种信号的场合——聚集了一群相信技术即将改变文明、并在争夺谁来掌舵的人。戴密斯·哈萨比斯在场。拉里·佩奇(Larry Page)也在。

晚会进行到某个阶段,佩奇和哈萨比斯在城堡的场地上散步,佩奇给出了他的提议。那不完全是一个销售说辞。它更接近于一个逻辑论证。哈萨比斯的目标是通用人工智能。建立追求这个目标所需的计算基础设施——服务器、能源、工程人才——需要耗费一个人大半生职业生涯的时间,即便如此,也不能保证成功。谷歌已经建立了这些基础设施。佩奇问:“你为什么不利用我已经创造的东西呢?”如果 DeepMind 的使命是建立 AGI,那么围绕这个使命建立一家独立的公司,为什么不是一条不必要的弯路呢?

这个推销非常有效,恰恰因为它很诚实。佩奇提供的不是对过去表现的资金奖励。他提供的是一条通向哈萨比斯真正想要的东西的道路。

马斯克的反击

同样参加了这场派对的埃隆·马斯克,一直在与佩奇进行着另一种性质的对话——根据大多数报道,这变成了一场私人争论。佩奇认为机器智能是人类自然演化的下一个继承者,他认为人类和人工智能之间没有有意义的区别。马斯克认为这是危险和错误的。他说,他是“支持人类”的。

在佩奇向哈萨比斯游说之后,马斯克试图干预。他直接接触了哈萨比斯,告诉他自己的看法:“AI 的未来不应该被拉里控制。”随后,他悄悄地与卢克·诺塞克合作,组建替代融资——试图独立收购 DeepMind,不落入谷歌或 Facebook 之手。这一努力最终没能给 DeepMind 董事会提交任何条款清单。

马斯克未能阻止收购所带来的影响,远超交易本身。这让他确信,创造一个竞争对手已迫在眉睫。在谷歌完成对 DeepMind 收购 14 个月后的 2015 年 12 月,OpenAI 宣告成立。那场生日派对上的争论产生了两个人都未能完全预料到的后果。

帕洛阿尔托的晚宴

与此同时,哈萨比斯也在并行与 Facebook 进行谈判。马克·扎克伯格很感兴趣;Facebook 的企业发展负责人阿明·祖弗农(Amin Zoufonoun)飞来开启谈判。一个报价成型了:股价低于谷歌的报价,但提供了巨额创始人奖金作为补偿。苏莱曼飞往加州进行谈判。

哈萨比斯通过在扎克伯格位于帕洛阿尔托的家中的一场晚宴对其进行了评估。他此行带着诊断的目的,而非推销。在将话题引向人工智能后,他刻意将范围扩大——聊到了虚拟现实、增强现实、3D 打印。他观察扎克伯格的反应。据哈萨比斯后来回忆,扎克伯格的反应是无差别的热情。他对所有这些都同样感到兴奋。没有任何一项技术在他眼中具有压倒性的重要性。

这就足够了。“Facebook 给的钱更多,”哈萨比斯说,“但我想要一个真正理解为什么 AI 会比所有这些其他东西更宏大的人。”扎克伯格未能通过测试——不是因为他缺乏智慧,而是因为他缺乏哈萨比斯要求收购方必须具备的特定信念。DeepMind 不是在寻找一个认为 AI 是众多有趣技术之一的买家。它是在寻找一个认为 AI 是“终极技术”,它将囊括或淘汰所有其他技术的买家。

根据这种解读,Facebook 想要的是一个将其作为功能的 DeepMind。而谷歌,或者至少是拉里·佩奇版本的谷歌,想要的是一个将其作为使命的 DeepMind。

谈判桌上的苏莱曼

穆斯塔法·苏莱曼在这一章中的贡献在于谈判本身。如果说哈萨比斯评估的是收购方的哲学一致性,那么苏莱曼处理的就是对抗性的算计。

他的策略(他后来用让人想起他扑克背景的术语来描述)是拒绝在估值上摊牌。他没有锚定一个价格,而是将早期的对话集中在研究预算上——多少计算资源、多少新员工、运营独立性会是什么样子。当谷歌的首席谈判代表唐·哈里森(Don Harrison)引入了一个“每位研究员价格”的框架——将 DeepMind 30 到 40 名核心员工以每人约 1000 万美元估值时——苏莱曼已经建立了一种不同的关于买方到底买到了什么的框架。他和哈萨比斯予以回击,争辩说这种隐含估值只有公司价值的一半不到。Facebook 的竞争性意向(无论是真实的还是在谈判中夸大的),成为了他们的杠杆。

最终的数字是 6.5 亿美元。扎克伯格后来带着明显的幽默感承认,哈萨比斯“利用他从谷歌获得了更好的交易”。这种赞美虽然有点挖苦,但却很准确。

毫无商量余地的安全性

在 2014 年 1 月,DeepMind 争取到的条件在如此规模的硅谷技术收购中是没有先例的。

哈萨比斯和苏莱曼提出了三个毫无商量余地的条件。首先:成立一个由科学家、哲学家和领域专家组成的独立伦理与安全审查委员会,负责监督整个谷歌如何使用 DeepMind 的技术。其次:禁止将技术用于军事应用。第三:运营自主权,DeepMind 总部继续留在伦敦,并控制自己的研究议程。

谷歌同意了这三点。交易于 2014 年 1 月 26 日宣布。

马拉比以适当的分量和适当的怀疑态度对待这一刻。一个 AI 实验室把安全作为收购的核心条件,而不是事后诸葛亮,这确实很了不起。在这个行业里以前没有人这样做过。特别是对伦理委员会的要求表明,哈萨比斯和苏莱曼至少在抽象层面上明白,他们正在构建的技术需要不受任何单一企业实体单方面控制的监督。

这些条件实际带来了什么

伦理委员会只开过一次会。其成员名单从未公开披露。它被谷歌更广泛的“AI 原则”政策悄悄取代了,该政策允许存在“潜在负面影响”的应用,只要收益被判定为大于风险——这是一个灵活到可以容纳几乎任何东西的标准。

那条看似绝对的军事禁令逐渐被削弱。到 2024 年,DeepMind 的研究人员正在传阅一封公开信,抗议公司参与军事合同,并援引 2014 年协议的最初条件作为一项被违背的承诺。

多年后回顾这一切,哈萨比斯给出了一个见仁见智的评价——你可以说他清醒,也可以说他在推脱责任:“安全不在于治理结构。即使你有一个治理委员会,到了紧要关头它也未必会做正确的事。”

从一种角度来看,这是智慧——一种来之不易的认识:解决权力问题的结构性方案往往会被它本该制约的权力同化。而从另一种角度来看,这是一个用治理担保换取资源的人在发现担保毫无疑问失效后进行的自我合理化辩解。

马拉比没有在这两种解读之间做出评判。他将两者都呈现出来,让读者自己决定。明确的是,2014 年 1 月的收购给了哈萨比斯他真正想要的东西:计算机。伦理委员会充其量是一个意图的声明。最坏的情况,它只是一块遮羞布,让一位杰出的科学家可以说服自己,他已经尽力了。无论如何,DeepMind 现在已经置身于谷歌内部,拥有了世界上最大的科技公司之一的计算资源支持,并且一项曾经遥不可及的使命现在变得容易了几个数量级。


第八章:直觉

在人工智能的历史上,有一个时刻比以往任何事件都更能改变公众对机器能力的认知。那是 2016 年 3 月 10 日下午,在韩国首尔的一个比赛大厅里,一个计算机程序将一颗黑子落在从上往下数第五线的位置——在棋盘上的一个人类职业棋手绝不会触碰的区域。

评论员们陷入了沉默。历史上最伟大的围棋棋手之一李世石盯着棋盘看了 12 分钟。曾在五个月前被 DeepMind 秘密击败并受聘为顾问的欧洲冠军樊麾在场边观战。“那不是人类的招法,”他说,“我从未见过人类下出这手棋。太美了。”

第 37 手出现了。随之而来的,正是马拉比本章标题直接提出的问题:人工智能有直觉吗?

为什么围棋是正确的问题

到 2014 年,国际象棋对于 AI 的野心来说已是封闭的领地。深蓝(Deep Blue)在 1997 年击败了卡斯帕罗夫。但整个领域从中吸取的教训——依靠优秀启发式的树搜索可以解决棋盘游戏——与其说是一次胜利,不如说是一个警示故事。国际象棋是被优雅化了的蛮力解决的;那不等同于智能。

围棋在多个数量级上都不同。标准的 19×19 棋盘大约产生 $2.1 \times 10^{170}$ 种可能的局势——这个数字超过了可观测宇宙中的原子总数(乘以超过一个古高尔的倍数)。国际象棋对于人类玩家来说似乎极其庞大,但只有大约 $10^{47}$ 种合法局面。围棋的搜索空间不仅更大;它在范畴上超出了计算能力在有限时间内可以触及的任何枚举策略。围棋的平均分支因子(每回合可用的合法落子数)约为 250,而国际象棋约为 35。任何通过向前看固定步数运作的算法都会崩溃。

二十年来,围棋程序的水平一直停留在高级业余阶段。这款游戏对 AI 的抵抗并非偶然。它是一种结构属性。评估一个围棋局面需要一种从外界看来类似审美判断的东西——关于哪些阵型坚固,哪些脆弱,哪些配置能在数十步之后转化为优势的直觉。人类玩家通过数十年的研究来培养这种直觉。它无法计算出来;它只能被学会。如果一个 AI 能够达到世界上最好人类棋手的水平,那它必须真正学到了些什么,而不仅仅是搜索得更有效率。

这正是哈萨比斯需要的证明。不是机器可以更快,而是它可以更明智。

习得性直觉的架构

AlphaGo 的设计反映了直接从哈萨比斯博士学位的神经科学研究中汲取的教训。该系统协同使用两个神经网络。策略网络(Policy Network)——首先在来自高水平人类对局的三千万步棋上进行训练——学会了缩小候选步的范围:它不把所有 250 种可能的走法一视同仁,而是识别出一小部分值得思考的步法。价值网络(Value Network)学会了评估棋盘局势:给定一个配置,每个玩家获胜的可能性有多大?

这两个网络单独都不足以成事。策略网络缩小了搜索范围;价值网络评估了终局。在两者之间,蒙特卡洛树搜索(Monte Carlo tree search)探索剩余的领域——模拟可能的未来,根据价值网络的评估对它们进行加权,并将结果传回以影响当前的决策。

接下来是关键的一步:自我博弈。AlphaGo 与自己对弈了成千上万次,从每场比赛中学习。最初的人类训练数据设定了起点。自我博弈则是系统超越该起点的方式。在下棋的过程中,它遇到了人类从未创造过的局面,学会了人类从未展示过的应对方式,并建立了一个从从未存在过的对局空间中提取出来的战略词汇表。

这是哈萨比斯关于海马体的见解在操作层面的体现。策略网络是记忆——从过去对局中习得的模式。自我博弈是想象力——将这些模式投射到全新的配置中,构建从未见过的可能未来。无论是生物还是人工,智能都是两者的结合。

首尔

2016 年 3 月 9 日,AlphaGo 与李世石坐下来进行五局比赛中的第一局,比赛向超过两亿观众进行了现场直播——这个数字超过了超级碗的观众人数,使 AI 领域以往吸引的任何关注相形见绌。李世石曾预测他将以 5-0 获胜,或者如果情况不佳,会是 4-1。“我认为这不会是一场非常势均力敌的比赛,”他说。他观看了 AlphaGo 对阵樊麾比赛的视频,得出结论认为存在可以利用的弱点。

他认为之前存在弱点并没有错。他错在认为那些弱点还在那里。在 2015 年 10 月到 2016 年 3 月期间,AlphaGo 下的棋比任何人类棋手一生下的都要多。

AlphaGo 在第一局中迫使对手认输。第二局开局相似。然后,在第 37 手,发生了一件房间里没有人——没有评论员,没有职业棋手,也没有 DeepMind 团队成员——预料到的事情。

第 37 手

AlphaGo 将一枚棋子落在棋盘的第五线,在一个开阔的区域——这种位置在围棋传统中被归类为失误。围棋中的职业策略是有深度规范的:某些阵型是正确的,某些方法是合理的,某些早期走法已经经过了数千年对弈的验证。在开阔空间第五线落子违背了游戏整个历史积累的智慧。

根据训练数据计算,人类职业选手下出这步棋的概率大约是万分之一。

李世石离开了桌子。12 分钟后他回来了,仍在思考。同为职业九段的评论员迈克尔·雷德蒙(Michael Redmond)盯着盘面,说他无法理解 AlphaGo 在想什么。然后,在接下来的一百多手棋中,其逻辑变得不容辩驳。这颗子不是失误。它是一个人类棋手从未构想过的战略序列的第一步,它违反了由几个世纪的专家实践塑造的直觉,并且,它赢得了比赛。

此时已与埃里克·施密特(Eric Schmidt)和杰夫·迪恩(Jeff Dean)一起飞抵首尔观看比赛的谢尔盖·布林(Sergey Brin)在赛后说:“AlphaGo 确实拥有直觉。它下出了极其美妙的招法。”

马拉比的本章标题就由此引出。布林的说法并不完全精确——AlphaGo 没有主观体验,没有确定感或审美的愉悦感。但从外界看来,它的输出与直觉别无二致。一个并非通过任何人类能够追踪的计算得出的判断,违反了传统智慧,结果却证明是正确的。布林随口说出的那个词,是能找到的最贴切的词汇。

神之一手与人类的代价

第四局产生了它自己历史性的时刻,只是方向相反。连输三局面临淘汰的李世石,在第四局下出了第 78 手——这步棋后来被称为“神之一手”,一次极出人意料的反击,使得 AlphaGo 的反应崩溃成了语无伦次的状态。该程序开始下出它自己的评估函数都会拒绝的糟糕走法,观察者称之为幻觉——一个被设计用来优化的系统突然找不到线索了。李世石迫使它投子认输。

他形容赢得那唯一一场对机器胜利的感觉给了他“无与伦比的温暖”。这种表达发人深省。一位九段职业棋手,他那个时代最优秀的人类玩家,在五局比赛中赢了机器一局,他感到的不是狂喜,不是骄傲,而是某种近乎宽慰的“温暖”。

AlphaGo 赢得了第五局比赛。最终比分是 4-1。

在新闻发布会上,李世石说:“我不知道该说什么,但我认为我必须首先表达我的歉意。我想为自己的无能道歉。我从未感受过这么大的压力,这么大的重量。”他努力澄清输的是李世石个人,而不是人类。但这种区分显得很脆弱。2019 年,李世石从职业围棋界退役。他给出的理由中,包括那些已经变得不可战胜的 AI 程序的崛起。他再也无法在游戏中找到乐趣。

至于哈萨比斯,他也无法完全庆祝。他说,他太清楚在激烈的竞争后输掉的感觉了。他也在思考这个结果意味着什么,以及它对接下来的要求。

AlphaGo Zero 证明了什么

李世石比赛之后,DeepMind 开发了 AlphaGo Zero——一个没有在任何人类数据上训练过的版本。它从随机下棋开始,完全通过自我博弈进行学习。在三天内,它就超越了击败李世石的版本。最终记录:AlphaGo Zero 以 100-0 击败了 AlphaGo Lee。

这一结果的意味,以一种最初胜利时未曾有过的方式令人不安。AlphaGo 击败了最优秀的人类,它是通过向人类学习然后超越他们做到的。而 AlphaGo Zero 击败 AlphaGo 的方式是完全不学习任何人类的东西。人类关于围棋的知识——三千万场比赛,五千年的传统——原来是天花板,而不是地板。从零开始学习的机器,其表现超过了学习了人类已知所有知识的机器。

哈萨比斯在其神经科学实验室中凭直觉认知到的同一个原理,现在附带了一个数据点。受限于人类已发现事物的智能在核心上仍然是派生的。允许自由探索的智能将超越它。构建 AGI 的目的不是为了复制人类的能力。而是去发现它之外还有什么。


第九章:走出伊甸园

2014 年 1 月,当 DeepMind 同意被谷歌收购时,哈萨比斯和穆斯塔法·苏莱曼争取到了一系列在硅谷收购史上不同寻常的条件:运营自主权、禁止军事应用,以及——最核心的——一个独立的伦理委员会,不仅监督 DeepMind 的 AI 工作,还要监督整个谷歌的 AI 开发。对于世界上最强大的科技公司来说,这是一个非凡的要求,而谷歌同意了。他们相信,伦理委员会将成为一项结构性保证,确保他们正在开发的技术不会被滥用。

十八个月后,该委员会举行了第一次真正的会议。那是一场灾难。

生日派对上的“物种主义者”

要理解发生了什么,你需要了解拉里·佩奇。这位谷歌的联合创始人花了数年时间思考智能的长期发展轨迹——不是像软件工程师优化系统那样,而是更像一个宇宙学家。他得出的结论让大多数人要么感到兴奋,要么感到恐惧。

佩奇认为,取代生物人类智能的数字超级智能将只是宇宙演化的下一步:适者生存,在信息规模而不是遗传学规模上展开。根据马拉比书中的多篇报道,他“考虑过将人类意识上传到计算机,并相信技术具有优于生物生命的内在优越性”。换句话说,他并不特别担心机器有一天可能超越人类的风险。他认为这就是目的。

这种世界观在埃隆·马斯克的 44 岁生日庆祝活动上与马斯克的观点迎头相撞。那是一场由马斯克当时的妻子塔露拉·莱利(Talulah Riley)在纳帕谷度假村安排的为期三天的活动。这两个人已经是多年的密友。晚饭后,在其他客人的注视下,他们卷入了一场关于 AI 的争论。

佩奇描述了他的愿景:在未来,人类与机器融合,各种形式的智能相互竞争,最优秀的胜出。马斯克提出了对人类安全的担忧、关于人类意识价值的担忧,以及对仓促而不计后果地追求更强大系统的担忧。佩奇驳斥了这些担忧。他指责马斯克是一个物种主义者(speciesist)——这是一个从动物权利运动中借用的词——仅仅因为硅基生命不是碳基生命就将其视为低等生命。

据报道,马斯克的回答是:“好吧,是的,我是支持人类的,我他妈的喜欢人类,老兄。”

不久之后,两人就不再说话了。马拉比描述佩奇将这些担忧视为“感伤的废话”。从佩奇的角度来看,机器至高无上不是需要抵制的威胁——而是值得欢迎的自然进步。一个制造火箭和电动汽车的人会出现在他的伦理委员会并主张克制,这在佩奇看来是不连贯的。

SpaceX 的会议

2015 年 8 月,作为收购条件,DeepMind 争取到的 AI 安全框架迎来了第一次重要会议。马斯克在 SpaceX 总部主持了这次会议。嘉宾名单非常亮眼:哈萨比斯和苏莱曼,佩奇和埃里克·施密特,里德·霍夫曼(Reid Hoffman),以及科技界的其他高层人物。

哈萨比斯带着一个连贯的理论来解释为什么他们需要这样一次会议。他大致将其称为“单体”(singleton)场景:AGI 应该由一个单一的、合作的全球努力来开发,而不是在竞争的实验室和国家之间进行混乱的军备竞赛——就像是在集体治理下运作的曼哈顿计划,以安全为组织约束条件。“AGI 比一个公司或一个人要宏大无限倍,”他说。“它真的是人类规模的。”其含义是它需要人类规模的协调,而不是竞争性的碎片化。

会议持续了数小时。结束时没有达成任何协议,没有共享的框架,也没有前进的道路。

压垮讨论的不是房间里缺乏智慧,而是充斥着太多不相容的信念。此时,佩奇和马斯克已经从朋友变成了对手。“物种主义者”的冲突毒害了任何在思想上达成一致的可能性。佩奇关于机器至高无上是自然且可取的观点,与马斯克认为这是一场必须抵制的存在性灾难的观点,根本无法调和。哈萨比斯的单体愿景需要一个基线共识:即赌注是巨大的,因此协调是必要的。佩奇不认同这个基线。

马斯克后来称安全委员会“基本上是扯淡”。苏莱曼在几年后回顾时承认:“我们在尝试建立委员会的方式上犯了很多错误,我不确定我们能否说它取得了明确的成功。”

关于整个努力,哈萨比斯最终得出了一个更阴暗的结论:“安全不在于治理结构……讨论这些事情并没有什么帮助。”

反攻

马斯克从 SpaceX 会议上带走的不是合作计划。而是情报。他现在近距离亲眼看到了 DeepMind 到底在制造什么以及它的进展有多快。而且他证实了,最有能力开发 AGI 的机构——拥有人才、资源和组织承诺的那个——控制在拉里·佩奇的手中,一个认为机器至高无上基本上没问题的人。

这是马斯克无法容忍的局面。

他以前尝试过直接的方法。当谷歌在 2013 年接触 DeepMind 寻求收购时,马斯克直接打电话给哈萨比斯,告诉他“AI 的未来不应该被拉里控制”,据报道,他还试图组建资金亲自收购 DeepMind——据其中一个说法,其中包括从洛杉矶派对上的一个壁橱里打了一个长达一小时的疯狂的 Skype 电话。但谷歌还是完成了交易。

SpaceX 会议之后,马斯克转向了萨姆·奥特曼(Sam Altman)。

2015 年 5 月 25 日,奥特曼给马斯克发了一封电子邮件,这封邮件在几年后成为了法律证据:“我一直在思考是否有可能阻止人类发展 AI。我认为答案几乎肯定是否定的。如果它注定要发生,那么让谷歌之外的人先做出来似乎更好。”

奥特曼提出了一种新型机构——一个在结构上效仿曼哈顿计划的非营利性 AI 实验室,该技术将“属于世界”,但如果成功,研究人员将获得类似初创公司的薪酬。其明确目的,是建立一个与 Google DeepMind 在顶尖 AI 人才和能力上近乎垄断的地位相抗衡的制衡力量。

在接下来的几个月里,马斯克、奥特曼和里德·霍夫曼仔细敲定了细节,最终招募了伊利亚·苏茨克维(Ilya Sutskever)——当时在 Google Brain 工作、世界上最受尊敬的深度学习研究员之一——作为联合创始人。OpenAI 于 2015 年 12 月公开发布,由奥特曼和马斯克共同担任主席,初始认捐资金为 10 亿美元。

马斯克后来写道:“创建 OpenAI 是作为一家开源(这就是我将其命名为 'Open' AI 的原因)、非营利公司,目的是作为谷歌的制衡力量。”

这次创立摧毁了什么

当哈萨比斯得知 OpenAI 的消息时,他感觉到了一种近乎背叛的滋味。马斯克似乎是带着善意参加了安全会议——然后利用在会议上收集的情报,建立了一个竞争性实验室,其创立的前提就是 DeepMind 是必须被反击的威胁。

马拉比指出了更深层的讽刺:马斯克表面上是出于对 AI 安全的担忧创立了 OpenAI,但通过这样做,他终结了哈萨比斯所主张的合作的全球方法剩下的任何可能性。单体场景——一个谨慎的、资源充足的实验室与人类合作开发 AGI——需要正是 OpenAI 的创立所摧毁的那种合作信任。一旦你有了两个资金充足、明确互为竞争对手的实验室,激励结构就改变了。速度变得至关重要。先发者将制定条款。竞赛,而不是谨慎,成为了主导逻辑。

马拉比着重强调了进一步的转折:一旦马斯克将 OpenAI 作为一家明确反谷歌、反哈萨比斯的企业推出,他就丧失了从内部监控 DeepMind 进展的能力。他所培养的非正式情报网络——董事会席位、友好的晚宴、安全会议——烟消云散了。他现在是竞争对手,而竞争对手是不分享他们所知道的情报的。

到 2015 年 12 月,AGI 发展中的主要参与者仍在相互交谈、仍参加同一会议、仍想象某种共同治理的短暂窗口期已经关闭。哈萨比斯设想的那个世界——建设 AGI 是一项由人类共同谨慎管理的集体人类工程——还没真正开始就已经结束了。

马拉比将这一章称为“走出伊甸园”。这个标题很贴切。堕落并不戏剧化。没有哪个单一的决定或背叛倾覆了一切。它是互不相容的世界观、竞争激励以及每一场军备竞赛所创造的结构性压力的累积:担心对方进展更快,担心你的克制会成为他们的优势,担心谨慎就是投降。

2016 年,马斯克私下写道,DeepMind 给自己带来了“极端的精神压力”。他担心,如果哈萨比斯的实验室率先实现 AGI,它将产生他所谓的“统治世界的一个大脑”——由单一机构控制的 AGI 独裁。他的解决方案是在比赛中增加另一个大脑。至于这是否让结果变得更安全,还是只是变得更快,马拉比巧妙地留下了一个悬而未决的问题。


第十章:P0 Plus Plus

穆斯塔法·苏莱曼的母亲是英国国民保健署(NHS)的护士。他在成长过程中看着母亲去医院上班,就像其他父母去办公室一样——制服、工作时间、其中的沉重感。当他最终置身于世界上技术最强大的组织之一 DeepMind,并问自己这种力量应该用来做什么时,答案很快浮现:做一些类似他母亲做的事情,但是要规模化。

这种情感并不是苏莱曼会用如此简单的框架来表达的。他在名声上并不是一个感伤的人——他是一个运营者,是当哈萨比斯在思考、列格在推导理论时那个把事情做成的人。但这种传记上的共鸣是不容忽视的,马拉比也没有漏掉它。那个将启动 DeepMind 雄心勃勃的社会应用,并将其置于优先级别(该级别实际上超过了谷歌工程词汇表中的最高类别——P0 Plus Plus,意味着比极其紧急的阻断问题更紧急,甚至超出了最高级别)的人,在某种程度上,是试图为曾经雇佣他母亲的机构做点什么。

值得解决的问题

苏莱曼需要一个与这些工具相称的问题。他在急性肾损伤(AKI)中找到了。

AKI——一种肾功能的突发、严重衰退——在英国医院每年导致多达 100,000 人死亡。如果能及时干预,大约 30% 的死亡被认为是可预防的。检测问题很奇特:表明肾脏恶化的血液测试结果会在抽血数小时后返回,散落在没有单个临床医生持续监控的系统中。由于相关数据停留在结果队列中等待有人查看,患者可能会从出现警告信号滑向危机。

技术解决方案并不复杂。如果你实时监控每一个传入的血液测试结果,并在数字跨越阈值时触发警报,你就能抓住系统遗漏的东西。挑战在于制度:正如苏莱曼公开指出的那样,NHS 医院“被技术严重辜负了”——仍然依赖寻呼机、传真机和纸质记录。技术上可行的东西与临床上部署的东西之间的差距,不是能力的差距。那是激励机制、惯性和 IT 基础设施的差距。

多米尼克·金博士(Dr. Dominic King)登场了。作为一名训练有素的普外科医生,金在帝国理工学院的 HELIX 中心(第一家嵌入欧洲医院的设计中心)度过了多年时光,在那里他开发了 HARK,一款旨在取代寻呼机的临床任务管理应用。它能起作用。但没关系。NHS 制度上的惯性使其几乎无法部署。金在 2015 年底给苏莱曼发了冷邮件。苏莱曼对金以临床医生为中心的设计理念印象深刻:技术必须服务于站在床边的人,而不是查看仪表盘的管理人员。DeepMind 于 2016 年初收购了 HARK,并将其整合到后来成为 Streams 的项目中。金成为 DeepMind Health 的临床主管。“离开医学界是一个很大的决定,”他说,“但我真的觉得这是一个让先进技术为患者、护士和医生服务的绝佳机会。”

Streams 做了什么

Streams 是一个智能手机应用程序。在医院病房里,它看起来很简单——护士手机上收到一个警报,包含患者的名字、验血数值、推荐的行动。在这个警报背后,是对医院整个电子病历系统进行的实时持续监控,结合国家 NHS 的 AKI 算法进行交叉引用,在患者结果超过风险阈值的那一刻触发通知。警报包括患者相关的测试历史和临床背景:采取行动所需的一切,从结果进入系统的那一刻起,不到一分钟就能传达。

皇家自由医院(Royal Free)部署该系统后的数字非常惊人。急诊病例的 AKI 识别率从 87.6% 上升到 96.7%。从验血结果可用到专家复核的平均时间降至 11.5 分钟——而以前可能需要几个小时。错过的 AKI 病例从约 12% 降至 3%。每位 AKI 患者的护理成本从 11,772 英镑降至 9,761 英镑——每位患者节省了超过 2,000 英镑。这些结果发表在同行评审的期刊上,由独立研究人员研究并确认:这项技术做到了它声称要做的事。

从最直接的意义上讲,Streams 正在拯救生命。问题在于构建它的代价是什么。

没人读过的协议

2015 年 9 月 29 日,谷歌英国有限公司与皇家自由 NHS 基金会信托签署了一份长达八页的信息共享协议。数据传输于 11 月 18 日开始——在任何关于该项目存在的公开声明之前。Streams 的实时测试于 12 月开始。

该协议实际涵盖的内容远远超出“一个 AKI 警报应用程序”。皇家自由医院授予 DeepMind 访问 160 万患者记录的权限——过去五年中使用该信托机构旗下三家医院的每一位患者。这些记录包括血液检查结果、艾滋病感染状况、药物过量和堕胎的详细信息、急诊就诊记录,以及与肾功能毫无关系的常规医院预约记录。在这 160 万份记录中,大约只有六分之一与 AKI 有合理的联系。

合同条款不仅允许 DeepMind 运行 AKI 警报,还允许建立“实时临床分析、检测、诊断和决策支持,以支持各种诊断和器官系统的治疗并防止临床恶化”——这是一个极其广泛的授权。这些数据将被用于一种名为“患者救援(Patient Rescue)”的项目,被描述为“一个为 NHS 医院信托机构启用分析即服务的概念验证技术平台”。尽管苏莱曼公开保证 Streams 中“没有 AI 或机器学习”,但该合同也允许了机器学习应用。

双方都声称在“直接护理”例外条款下得到了法律掩护——即当目的是为了特定患者的直接护理时,可以在没有明确同意的情况下使用患者数据。这个论点需要将概念扭曲到破裂。这 160 万人中的绝大多数并没有接受过 AKI 测试。许多人已经出院。有些人已经死亡。在数据传输开始之前,并没有进行隐私影响评估。自我评估是在 2015 年 12 月完成的,当时数据已经在谷歌控制的服务器上了。

清算

2016 年 4 月 29 日——在数据传输开始七个多月后——《新科学家》(New Scientist)发表了一项调查,揭示了实际发生的事情。公众对此一无所知。没有通知患者,没有同意机制,没有披露涉及记录数量的新闻稿。当分享的数据规模——160 万份记录,包括艾滋病诊断和吸毒过量史——变得清晰时,人们的反应是迅速而愤怒的。

英国信息专员办公室(ICO)进行了调查,并于 2017 年 7 月裁定,皇家自由 NHS 基金会信托未遵守 1998 年《数据保护法》。ICO 发现,患者“未充分获知处理正在发生”,数据量“过多、不必要且不成比例”,并且“直接护理”的法律基础不成立。该医院被要求签署一份承诺书,承诺对未来的任何项目进行严格的隐私影响评估。没有处以罚款——这种宽大处理受到了广泛批评。

最严厉的评估来自学术研究人员而不是监管机构。朱莉娅·鲍尔斯博士(Dr. Julia Powles)和哈尔·霍德森(Hal Hodson)在同行评审的《健康与技术》杂志上发表了一篇论文,称该交易是“算法时代医疗保健的警世故事”。他们的核心观察毫不留情:“医院派医生去开会,而 DeepMind 派的是律师和训练有素的谈判代表。”双方都未曾与“患者和公民进行过任何对话”,他们称这是不可原谅的。然后是那句精准捕捉到结构性问题的句子:“一旦我们的数据进入谷歌控制的服务器,我们追踪它的能力就结束了。”

DeepMind 的官方回应(值得肯定的是)真的很坦诚。“在 2015 年这项工作开始时,为了快速取得影响,我们低估了 NHS 的复杂性以及围绕患者数据的规则,”该公司写道。“我们几乎只专注于打造护士和医生想要的工具,认为我们的工作是面向临床医生的技术,而不是需要对患者、公众和整个 NHS 负责并由他们塑造的东西。我们弄错了。”

犯错的代价

这场丑闻造成的伤害不仅仅是 DeepMind 的声誉。它更是凸显了苏莱曼建立其职业生涯的应用人工智能项目核心的一个矛盾。

这项技术确实有效。拯救的生命是真实的。同行评审期刊中记录了每位患者护理成本降低 2000 英镑的事实。这些都没有争议。但是,DeepMind 获取数据以建立和训练该系统的手段,侵犯了这 160 万患者中每一位的合理期望——这些人来到医院接受护理,在脆弱的时刻提交了最敏感的信息,并在不知情的情况下被转移到了科技公司的服务器上。

苏莱曼职业生涯都在思考权力不对称——机构如何系统性地辜负它们所服务的人,技术如何被用来将这种不对称推向普通人而不是远离他们。NHS 数据丑闻证明,即使是对社会公益的真诚承诺,也不会自动产生社会公益所需的治理结构。为了拯救生命而快速行动,从一个角度看,像是迫切感。从另一个角度看,它就像是不问自取。

2018 年末,谷歌宣布 DeepMind Health 将并入一个新的谷歌部门。DeepMind Health 品牌被解散。苏莱曼建立的项目——那个他在内部列为优先级别超越最高级别的 P0 Plus Plus 项目——被他的企业母公司(他曾帮助促成对该母公司的收购)吞并。他被从日常领导岗位上撤换。

2019 年 8 月,在 DeepMind 员工抱怨其管理风格后,苏莱曼被行政休假。他后来表示:“我接受了反馈,作为 DeepMind 的联合创始人,我把人逼得太紧,而且有时候我的管理风格不够建设性。我毫无保留地向受到影响的人道歉。”他于 2019 年 12 月宣布离开 DeepMind。

这个共同创立了后来赢得诺贝尔奖的机构的人,并非在胜利中离开,而是陷入了一场关于他如何对待手下员工的争议中。他所追求的社会公益,到头来,却以一种复制了他试图纠正的机构失败的方式进行:快速行动,假定好意就足够了,却没有问受影响最深的人他们实际想要什么。


第十一章:智能体与 Transformer

2021 年,AlphaGo 的首席架构师大卫·席尔瓦在《人工智能》期刊上合著了一篇题为《奖励足够了》(Reward is Enough)的论文。该论点精准且广泛:最大化奖励的目标,就其本身而言,足以驱动表现出“大部分(如果不是全部)智能属性”的行为,包括感知、语言、社会智能和泛化。论文声称,认知所做的一切都可以被理解为在丰富环境中为了获得奖励而进行的优化。进化花了数百万年才找到这个解决方案。强化学习可以更快地到达那里。

这篇论文是 DeepMind 扎在领地里的哲学旗帜。同时,事后看来,它也是一座纪念碑,纪念着那份让 DeepMind 付出了数年时间的执念。

奖励的理由

哈萨比斯走向 AGI 的方法一直植根于他接受的神经科学训练。他在 UCL 研究过的海马体并不像查找表那样存储知识——它通过经验建立被压缩的、可泛化的世界模型。大脑通过行动和犯错来学习。奖励信号——成功后多巴胺的释放,失败后多巴胺的消失——随着时间的推移,将神经连接塑造成我们称之为“理解”的东西。这就是生物学的故事。强化学习是它的数学抽象:在环境中的智能体,采取行动,接受奖励,调整策略。

这不仅仅是一种技术偏好。这是一种心智理论。而 DeepMind 最大的几场胜利也加强了这一点。DQN 通过奖励精通了雅达利。AlphaGo 通过奖励和自我博弈精通了围棋。AlphaGo Zero 从零开始,仅凭奖励和自我博弈就超越了人类五千年来积累的所有围棋知识。这种模式非常一致,让人感觉这就是真理。

战略含义是,DeepMind 应该构建智能体——被置于环境中的系统,追求目标,通过性能压力发展出通用能力。而不是被训练去预测文本语料库中下一个词的系统。那是模式匹配,不是智能。

通才问题

在 2010 年代中后期占据 DeepMind 应用强化学习团队的研究问题是泛化(generalization)。DQN 的结果令人印象深刻,但它为每一款雅达利游戏从头训练了一个单独的网络。它无法将它在《打砖块》中学到的东西转移到《太空侵略者》中。每次部署都是一张白纸。这不是大脑的工作方式。目标是建立能够跨领域携带知识的智能体。

科拉伊·卡武克库奥卢——DeepMind 最早的研究员之一,Yann LeCun 的博士生,那个目前被引用次数超过 290,000 次的人——领导了其中大部分工作。2016 年发布的异步优势演员-评论家(A3C)系统在不同环境中并行运行多个智能体,将梯度发送回共享网络。第一次,单个架构在所有 57 款雅达利游戏上同时实现了强劲性能,并且在 3D 迷宫导航和连续运动控制方面也取得了成功。相同的算法,相同的网络结构,不同的环境。

然后,在 2018 年出现了 IMPALA(重要性加权演员-学习器架构)——这是迄今为止最认真的尝试。单个网络在 DMLab-30 的所有 30 个任务上进行训练:3D 导航、记忆挑战、基于语言的觅食、对象交互、指令遵循。结果显示了一些令人信服的东西。在许多任务上进行训练并没有让智能体在单个任务上表现变差——而是让它变得更好。通才超越了专才。正向迁移是真实存在的。

与此同时,Oriol Vinyals 及其 AlphaStar 团队正在攻克《星际争霸 II》,这是一个让此前所有尝试都相形见绌的难题。与国际象棋或围棋不同,《星际争霸》具有不完全信息、每秒 22 个动作的实时执行、需要同时控制数百个单位,以及跨越三个独立种族的真正战略多样性。AlphaStar 使用了一个“联赛”训练系统——一个多样化的智能体生态系统,包括旨在寻找弱点的专门“剥削者”智能体——甚至在强化学习开始之前就进行了人类回放数据的训练。2019 年 1 月,它在现场比赛中击败了职业选手。它的神经架构结合了类似 Transformer 的注意力机制,让智能体能够同时推理不同的单位。

最后那个细节绝非巧合。到 2019 年,在谷歌这座大楼另一边发明出来的架构——在 Google Brain,而不是 DeepMind——开始无处不在。

走廊里的八位作者

2017 年 6 月 12 日,谷歌的八名研究人员在 arXiv 上发布了一篇题为《注意力机制就是你所需要的一切》(Attention Is All You Need)的论文。作者名单经过刻意随机化——他们拒绝传统的地位排序,将自己列为同等贡献者。最年轻的 Aidan Gomez 是多伦多大学 20 岁的实习生。在技术上最核心的 Noam Shazeer 自 2000 年起就一直在谷歌工作,并共同发明了稀疏门控专家混合(sparsely-gated mixture of experts)技术,这项技术将成为大规模 LLM 的关键。至于“Transformer”这个名字,被选用的原因仅仅是因为 Jakob Uszkoreit 喜欢它的发音。

他们正在解决的问题是序列建模中一个基本的瓶颈。当时的统治性架构是 LSTM——一种循环神经网络,按顺序一个词一个词地处理文本。要理解第 10 个词,你必须先处理完第 1 到第 9 个词。这使得训练本质上变成了顺序的,不可能在现代 AI 运行的 GPU 硬件上并行化。正如 Shazeer 后来的总结:“在今天的硬件上,算术运算很便宜,而移动数据很昂贵。”

Transformer 完全摒弃了循环。取而代之的是:自注意力机制。在这种机制中,句子里的每一个词都同时直接看向其他每一个词,计算出一个相关性得分,以此决定该对每一个词分配多少注意力。整个句子被同时并行处理。多头注意力(Multi-head attention)并行运行多次这一操作,让模型能同时关注句法、语义和长距离依赖关系。结果是:不仅仅是更好的翻译质量,而且训练的规模与算力呈线性扩展。

Jakob Uszkoreit 相信这会成功。他自己的父亲,Hans Uszkoreit——一位著名的计算语言学家——则持怀疑态度。放弃循环机制的想法让人感觉像是在放弃时间机制本身。而当 Shazeer 第一次听到这个提议时,他的反应则是他标志性的直接:“当然行!”

在 WMT 2014 英德翻译基准上,Transformer 获得了 28.4 的 BLEU 得分——超越了之前所有的模型。在英法翻译上:41.8 BLEU,在 8 个 GPU 上训练了 3.5 天。NeurIPS 的审稿人们立即表现出极大的热情;一位审稿人指出它“已经是社区里谈论的焦点”。

在不到五年的时间里,这篇论文积累了超过 173,000 次引用——跻身跨越所有领域的 21 世纪被引用次数最多的十篇科学论文之列。Transformer 成为 GPT、BERT、PaLM、Claude、Gemini 以及之后所有大型语言模型的基础。

谷歌拱手相让的架构

马拉比深思的讽刺是绝妙的。Google Brain 发明了这个架构。谷歌将其公开发表。然后,所有八位作者都离开了谷歌。

其中六位创办了初创公司。Vaswani 和 Parmar 联合创办了 Adept AI。Shazeer 联合创办了 Character.AI——后来谷歌支付了约 27 亿美元才将他拉回来。那位 20 岁的实习生 Aidan Gomez 联合创办了 Cohere。Uszkoreit 创办了 Inceptive。Lukasz Kaiser 去了 OpenAI,帮助构建了最终让谷歌措手不及的模型。这六位创始人总共从外部投资者那里筹集了 13 亿美元。其中两家公司成为了独角兽。

谷歌内部发明的架构为威胁谷歌的竞争对手提供了动力。公开的论文发表正是促成这一结果的机制。

但在 DeepMind 内部,还存在着第二层讽刺。Transformer 并非由 DeepMind 发明。它是 Google Brain 发明的。多年来,这两个组织像两个在同一个企业屋顶下的平行研究组一样运作,保持着明确的机构分离和内部人士所称的“几乎不加掩饰的相互鄙视”。一位前 DeepMind 研究人员后来说,同事们“因为与 Brain 合作写论文而惹上麻烦,因为人们的想法是,‘你为什么要跟 Brain 合作?’”。学术上的分歧不仅存在于组织上,更是哲学层面的。

深刻的分歧

哈萨比斯理解 Transformer。他的立场不是无知——而是关于智能究竟需要什么,存在着原则性的分歧。

他在这一时期的采访中一致表达的论点是:Transformer“在它们的作用范围内有效得几乎不讲道理”——但它们可能不足以实现 AGI。它们缺少的是他所谓的“世界模型”:对现实的内部因果表征,它能让智能体进行规划、进行反事实推理、理解物理结果并泛化到真正全新的情境中。在他看来,LLM 是异常强大的模式补全器。它们学习语言中的统计规律。但是,语言数据中的统计规律,并不等同于对语言所描述的世界的理解。

《奖励足够了》这篇论文则是从另一个方向提出的同一个论点:智能是在丰富环境中为了获得奖励而进行优化时得到的东西。预测下一个标记——即语言模型训练的实质内容——并非如此。那是某种其他的东西:很复杂、很有用、甚至令人惊叹。但它不是通向 AGI 的路径。

这种信念是连贯的,是站得住脚的。它也与 DeepMind 过去的记录一致。但这让实验室付出了从 2018 年到 2022 年这几年时间的代价,在这期间,OpenAI 悄悄构建了规模化基础设施、数据流管道以及 RLHF 训练技术,最终将 Transformer 从一个研究成果变成了 ChatGPT。

当马拉比就此追问哈萨比斯时,后者做出了部分但真实的承认。“我们在自监督和深度学习方面一直有惊人的前沿工作,”哈萨比斯在一次采访中说,“但也许工程和规模化部分——我们本来可以做得更早、更努力。”在其谨慎的言辞中,这承认了机构层面上的一项战略误判。

Gato 与大融合

在 ChatGPT 面世六个月前的 2022 年 5 月,DeepMind 发表了题为《一个通才智能体》(A Generalist Agent)的论文,介绍了一个名为 Gato 的模型。同样是 12 亿参数的 Transformer,共享同一套权重,执行了 604 项不同的任务:玩雅达利游戏、给图像加字幕、进行对话、用物理机械臂堆叠积木、在 3D 环境中导航。核心技术突破是“序列化”:图像、机器人关节角度、文本、游戏手柄的所有模态都被转换成相同格式的一维标记序列。然后,Transformer 预测下一个标记,完全像语言模型所做的那样。对于网络而言,机械臂、雅达利游戏和字幕任务都是同一种预测问题。

Gato 是 DeepMind 终于将 Transformer 全面整合进其通才智能体研究的成果。从某种意义上说,它同时证实了两个阵营的观点:通过 Transformer 架构(通用序列预测)实现的强化学习泛化假说(单一系统,多种任务)。

它的表现是称职的,但远非超人级别——在许多任务中,Gato 的表现处于专家基准的 50% 以上,其广度令人印象深刻,但在深度上不及专家模型。批评者认为,在许多事情上表现平庸,并不是他们所关注的灵活的智能。但架构层面的论证是真实的:一套权重可以同时跨越机器人控制、图像理解、语言和游戏。

然后 ChatGPT 发布了。世界发现,一个 Transformer 不需要去控制机械臂或玩雅达利,就能创造出在几亿人看来感觉像真正通用智能的东西。

DeepMind 发明了通才智能体理论。Google Brain 发明了架构。OpenAI 将两者结合——对大规模 Transformer 应用基于人类反馈的强化学习(RLHF)——并首先将其推向了公众。这种知识层面的融合,发生在大楼之外,而在大楼里面,这两半人曾花了近十年时间拒绝合作。


第十二章:论语言与自然

2016 年 9 月,由 Aaron van den Oord 领导的一支 DeepMind 团队发表了一篇论文,描述了一个能够直接从原始音频波形合成人类语音的系统。在盲听测试中,WaveNet 将当时最先进的文本转语音技术与真实人类语音质量之间的差距缩小了 50% 以上。它还可以生成音乐——同一套用于语音的架构能自发生成钢琴曲。

这结果很惊艳。真正具有重大意义的是它的方法。

WaveNet 抛弃了语音合成领域几十年来积累的一切:音素字典、声学声码器、基于人类声道发声原理由第一性原理推导出的信号处理模型。取而代之的是,它逐时间步、每个样本基于之前所有样本来对原始音频波形(每秒 16,000 个样本)进行建模。这里的技术创新是空洞因果卷积(dilated causal convolutions):这是一种叠加卷积层并使其间距呈指数增加的方法,从而使模型在时间上的有效窗口随着深度的增加呈指数级增长。结果是:系统能够捕捉语音的长期时间依赖性,而根本不需要被告知什么是语音。

研究人员自身也对结果感到意外:“能用深度神经网络直接对 16kHz 的音频进行逐时间步生成,并且竟然成功了,这真的令人非常惊讶。”他们不是从语音理论中推导出 WaveNet 的。他们将一种通用的顺序预测框架应用于原始数据,并发现它比人类精心设计了几十年的声学模型表现更好。

波形与序列

WaveNet 所证明的原理并不局限于音频。Van den Oord 之前在一篇名为 PixelRNN 的论文中就已经在图像上证明了这一点:将每个像素视为一个基于之前所有像素来预测的值。同一种分解法——将任何高维信号的联合概率表示为其各元素按顺序排列的条件概率乘积——适用于图像、音频,以及第二年通过 Transformer 论文所证明的语言。

更深层的论点涉及认识论:无论多么复杂的自然信号,都包含可学习的统计结构。你不需要理解这个领域。你需要的是足够的数据和一个具有足够容量来对序列依赖关系进行建模的网络。工程师们花了其职业生涯编码进 AI 系统的领域知识——语音规则、声学物理学、语法结构——结果证明是不必要的。结构就在数据之中。

这一洞见最终延伸到了生物学领域。

蛋白质就是一个句子

在最基本的层面上,蛋白质就是一串字符。20 种标准氨基酸每一种都被分配了一个字母——A、C、D、E、F 等等——一条蛋白质序列就只是这些字母构成的字符串,通常有几百到几千个字符长。一个由 300 个氨基酸组成的蛋白质,就是一个由 20 个字母表构成的、长度为 300 个字符的句子。

更重要的是,它是一份信息完备的说明书。这是安芬森定理(Anfinsen's theorem)——克里斯蒂安·安芬森(Christian Anfinsen)因此获得 1972 年诺贝尔化学奖的见解:蛋白质完整的的三维结构以及它的生物功能,完全由其氨基酸序列决定。不需要任何其他东西。序列不是蛋白质的摘要;它就是蛋白质的完整说明书,以线性形式编码。如果你知道如何阅读这个序列,你就能重建关于这个分子的一切。

在 2010 年代末,研究人员开始注意到这里与自然语言处理有着惊人的相似之处。通过大规模语料库采用掩码语言建模(掩盖一个随机词,从上下文语境中预测它)训练的 Transformer 架构,无需任何关于“意义是什么”的监督,就能学习编码丰富语义结构的表示。相同的技术应用于蛋白质序列——掩盖一个随机氨基酸,从其余的链中预测它——在没有任何关于“结构是什么”的监督的情况下,也产生了编码生物化学结构的表示。语言建模准确率越高,就意味着其表示中包含更好的结构信息。蛋白质模型的缩放定律(scaling law)与文本模型的缩放定律相同。

生物序列数据库就是一个语料库。数百万相关物种中哪些突变同时发生的演化记录就是一个信号。序列中各位置之间的相关突变,被证明对接着折叠结构中的物理接近度:第 50 位的突变若是破坏了折叠,往往会由第 73 位的一处协同突变来补偿,因为这两个残基在物理上是接触的。只要序列够多,只要对协同进化的模式投入足够的关注,3D 结构就开始从 1D 的字符串中显现出来——这不是因为模型理解了化学,而是因为序列空间中的统计规律已然足够。

首尔之战的第二天

哈萨比斯准确地讲述了这个故事。他“大约是在我们从首尔的 AlphaGo 比赛回来的第二天”就启动了蛋白质折叠项目——就在 2016 年 3 月 AlphaGo 以 4-1 击败李世石之后。在观看 AlphaGo 下棋时,他想起了 2008 年的蛋白质折叠游戏 FoldIt。他意识到 DeepMind 为围棋打造的机器——在巨大的组合空间里导航的搜索引擎、评估局势的学习系统——在本质上是通用的。蛋白质的构象空间恰恰就是这种空间:大得惊人,有一个可以被评估的正确答案,并且有积累的数据提供训练信号。

“我们从游戏开始,因为这是开发 AI 和测试最有效的方式,”哈萨比斯后来说,“但这从来都不是最终目的。”AlphaGo 是概念验证。AlphaFold 是这项概念验证在科学前沿的首次部署。

约翰·江珀(John Jumper)于 2017 年加入 DeepMind。哈萨比斯在 2018 年 7 月提拔他领导 AlphaFold 2 的开发——这特别是因为江珀的背景横跨了“蛋白质物理学和机器学习”,他接受过计算化学家的培训,同时也了解深度学习。江珀设计的 Evoformer 架构,同时在序列轴和成对的残基间轴上使用了类似 Transformer 的自注意力机制,将进化上相关蛋白质的多序列比对处理成一个语料库,在其中进化的共变异对应着物理接触。

在 2018 年 12 月的 CASP13 上,AlphaFold 1 以大幅领先优势赢得了蛋白质结构预测竞赛。一辈子都在研究这个问题的计算生物学家穆罕默德·阿勒库莱希(Mohammed Al-Quraishi)写了一篇题为“刚才发生了什么?”的博客文章。他不是在反问。花了数十年手工打造算法的学术蛋白质折叠团队,被一支刚刚接触该问题两年的机器学习团队彻底击败了。

捕捉到那一刻精髓的评论来自结构生物学界:DeepMind 在蛋白质折叠上的成就,就如同他们在围棋上取得的成就一样。

苦涩的教训及其复杂性

2019 年 3 月 13 日,强化学习奠基理论家之一、当时在阿尔伯塔大学工作的理查德·萨顿在个人网站上发表了一篇题为《苦涩的教训》(The Bitter Lesson)的短文。全文大约 1400 字,被大量阅读。

他的论点简单而具有颠覆性:“从 70 年的 AI 研究历史中能得出的最大教训是,利用计算能力的通用方法最终是最有效的,并且优势巨大。”萨顿指出,AI 的历史遵循着一致的模式:人类研究员将领域知识编码进系统;这些系统最终被能利用计算能力进行规模扩展的、更简单的方法所超越。国际象棋、围棋、语音识别、计算机视觉——在每一种情况下,规模化扩展算力的暴力美学方法最终都会赢。这个教训之所以苦涩,是因为它意味着研究人员耗费一生总结出来的昂贵的人类洞察,从长远来看,是一条错误的策略。

在这一争论中,DeepMind 的立场非常复杂。从一种解读来看,AlphaFold 证实了那个苦涩的教训:规模和学习击败了数十年手工打造的结构生物学。从另一种解读来看,它是一次反驳:AlphaFold 2 的 Evoformer 融合了有关蛋白质几何结构的重大物理先验知识,包括一个尊重 3D 空间对称性的“不变点注意力(Invariant Point Attention)”模块。AlphaFold 团队并没有天真地将通用序列模型应用于蛋白质;他们设计了一个内置了特定于蛋白质归纳偏置的架构。

当被问及是否认同这个“苦涩的教训”时,哈萨比斯通常会给出同样细致入微的回答:规模非常重要,但你还需要正确的架构。他的公开立场一直是,目前的 AI 系统虽然令人印象深刻,但“推理能力不一致——一会儿能解决研究生级别的问题,下一刻却在基本逻辑上犯错”——而且这种失败模式表明,除了语言数据中的统计规律之外,还需要一些别的什么东西来实现真正的通用智能。缺少的正是世界模型。

缩放定律及其修正

2020 年 1 月,OpenAI 的一个团队发表了《神经语言模型的缩放定律》(Scaling Laws for Neural Language Models)。结论是:语言模型的性能与模型大小、数据集大小以及计算预算之间遵循平滑的幂律关系,这一规律跨越了七个以上的数量级。只要你在任何一个维度上扩大规模,损失值就会可预测地下降。该论文认为,在固定的计算预算下,最佳策略是训练尽可能大的模型,哪怕这意味着模型远远没有达到收敛(convergence)就停止训练。

GPT-3 遵循了这一处方。1750 亿个参数,3000 亿个训练标记。结果是一个能写论文、回答问题和补全代码的模型,它以任何 DeepMind 研究成果都不曾有过的方式吸引了全世界的目光。

DeepMind 的回应是 Chinchilla。发表于 2022 年 3 月,该论文训练了 400 多个在大小和数据集规模上各不相同的语言模型,并发现之前卡普兰(Kaplan)的处方是错的。在最优计算下,模型规模和训练数据的标记数量需要按同等比例增加——大约是每参数 20 个标记,而不是 GPT-3 使用的每参数 1.7 个标记。根据这个处方,GPT-3 严重缺乏训练。一个大小只有它四分之一,但在四倍数据量上训练的模型,就能胜过它。

为了证明这一点,DeepMind 训练了 Chinchilla:700 亿个参数使用了 1.4 万亿个标记(token),使用的计算预算与他们的 2800 亿参数模型 Gopher 相同。Chinchilla 在测试的每一项基准上都胜过了 Gopher、GPT-3 以及其他所有前沿的大语言模型。仅仅在 MMLU 准确率上对 Gopher 的改进就达到了 7.5 个百分点——而其模型大小只有前者的四分之一。

Chinchilla 不是对规模的拒绝。这是对规模的更严谨的理解——这是从一个(在哈萨比斯看来)一直比那些竞相训练最大模型的实验室更看重计算效率的实验室向 OpenAI 开出的修正案。这其中暗含的竞争信息是:DeepMind 的研究人员比其他任何实验室都更懂缩放的科学。

悬而未决的问题

这一章的标题是用心良苦的。语言与自然并非两个碰巧被技术巧合联系起来的独立领域。从 DeepMind 在整个 2010 年代所发展的框架来看,它们是同一个问题——即学习隐藏在任何序列数据背后的结构的问题,无论这些数据是语音波形、氨基酸链,还是文本语料库。

WaveNet 确立了音频是一个可学习的序列。Transformer 确立了语言是一个可学习的序列。蛋白质语言模型确立了生物学是一个可学习的序列。AlphaFold 确立了隐藏在生物序列中的可学习结构能够以近乎完美的精度编码三维现实。

把所有这些联系起来的,是那个哈萨比斯从未在公开场合给出最终定论的问题:这到底是不是智能?他一致却暂定式的答案是,这取决于你对智能的定义。如果智能意味着通过从训练数据中提取模式来可靠地解决定义明确的问题,那么是的,这些系统是有智能的。但如果智能意味着具有灵活因果关系、能泛化、能进行反事实推理,并且能在完全崭新的环境里导航的智能体,那么答案尚未得到证实。这种区别很重要,因为第二种类型的智能,正是区分“AlphaFold 在蛋白质预测上近乎完美”和“GPT-4 流利且自信的幻觉”的关键——一个系统在其训练分布内可靠地做到正确;另一个系统却能流利地输出看起来正确的错误信息。

支持“只要规模够大就行”的阵营给出的答案是,当你加入更多的参数、更多的数据和算力时,这种区别将会消失——这是一种经验上的赌注。哈萨比斯的答案是,这种区别需要超越纯粹堆叠规模的架构创新——这同样是一种经验上的赌注。这两者都还没有被证明。AlphaFold 所证明的,是至少有一个前沿科学问题可以通过学习序列数据来解决。它没有证明的是,这种方法是否能泛化到所有前沿科学问题上,还是仅仅适用于那些答案已完全编码在其输入信息中的问题。


第十三章:马里奥计划 (Project Mario)

伦理委员会曾是 DeepMind 收购条款上的明珠。当哈萨比斯(Hassabis)和苏莱曼(Suleyman)在 2014 年 1 月同意将其出售给谷歌时,他们争取到了一个在此前任何技术收购中从未有过的条件:一个拥有监督谷歌在所有部门(而不仅仅是 DeepMind)如何使用 AI 的权力的独立伦理委员会。该委员会原定于 2016 年 1 月召开会议。它本应成为一项制度保障,确保他们正在构建的技术不会被武器化、被不计后果地商业化,或者以破坏其使命的方式集中权力。

该委员会从未发挥过作用。谷歌和 DeepMind 随后都拒绝透露委员会的成员是谁、是否开过会,或者讨论过什么。一位前员工告诉马拉比(Mallaby),它“从未存在过,从未召开过会议,也从未解决过任何伦理问题。”当哈萨比斯被公开问及该委员会是否存在时,他表示无法证实或否认,因为“这一切都是机密。”2017 年 10 月,DeepMind 成立了一个名为“DeepMind 伦理与社会”(DeepMind Ethics & Society)的研究部门——一个研究 AI 社会影响的内部团队。它明确不是 2014 年承诺的监督机构。它只是一个研究小组。

正是在这种背景下,哈萨比斯和苏莱曼发起了一项治理倡议,这项倡议将耗费他们三年的心血,最终却一无所获。

导火索

前一章描述的 2015 年 8 月 SpaceX 安全会议是直接原因。当那场会议演变成马斯克和佩奇之间的私人敌意,且没有达成任何协议或共享框架时,苏莱曼得出结论:非正式的治理永远行不通。结构上的独立性是唯一有意义的保护。

一个意想不到的契机帮了他。2015 年,谷歌正在重组为 Alphabet——将各个独立部门剥离为半独立的“押注”项目(如 Waymo、Verily、DeepMind)。谷歌的并购主管大卫·哈里森(Don Harrison)向哈萨比斯和苏莱曼建议,Alphabet 的重组为 DeepMind 重新获得他们已经卖掉的独立性提供了一条自然路径。问题在于是否要走这条路。

对于苏莱曼来说,答案是肯定的。该项目获得了内部代号:马里奥计划(Project Mario)。其愿景非常具体:DeepMind 将成为一家“全球利益公司”(Global Interest Company)——一家担保有限公司,不发行股票,不支付股息,根据英国法律构建为一家公共利益机构。Alphabet 将继续为其运营提供资金,以换取独家技术许可。治理将来自一个“3-3-3 董事会”:DeepMind 拥有三个席位,Alphabet 三个席位,独立成员三个席位。未来任何 AGI 的突破都将由这种结构控制,而不是由 Alphabet 的股东控制。

哈萨比斯用近乎乌托邦的语言来描述它:通用人工智能“太重要了,不能被单一公司的股东所左右。”它是“人类规模的”。治理结构必须与这种巨大的利害关系相匹配。

秘密对冲基金

独立性的逻辑需要财务上的自给自足。你无法与给你发薪水的实体谈判独立。因此,在进行治理谈判的同时,哈萨比斯悄悄组建了一支由大约 20 名研究人员组成的团队,去解决一种不同类型的问题:击败金融市场。

他们的野心非常具体。目标是文艺复兴科技公司(Renaissance Technologies)——吉姆·西蒙斯(Jim Simons)的量化基金,金融史上最成功的交易机构。DeepMind 将把用于游戏和蛋白质的相同的深度学习和强化学习技术应用于金融时间序列。如果成功,所获利润将为独立提供资金。

DeepMind 还探索了与贝莱德(BlackRock)的合作。该项目从未公开宣布过。它从未得到谷歌的批准,谷歌显然对此一无所知,并且当该项目最终在内部浮出水面时,谷歌“对监管风险感到恐慌”。它从未产生过收入。它被悄悄地解散了。

这次尝试建立对冲基金是马拉比叙述中更为引人注目的细节之一——它提醒人们,这场关于治理的传奇不仅涉及法律谈判,还涉及由名义上受雇于谷歌从事 AI 研究的人员所进行的真正的秘密行动。

五见拉里·佩奇

到 2016 年初,马里奥计划已经从愿景走向了谈判。哈萨比斯与拉里·佩奇(在将谷歌交给桑达尔·皮查伊后掌管 Alphabet)会面了四次,然后是第五次,以敲定结构细节。佩奇是能找到的最有同情心的对话者。他曾大力支持对 DeepMind 的收购,他尊重哈萨比斯的科学成就,而且他至少在抽象层面上认同这样一个理念:DeepMind 的使命需要不同寻常的治理。

在第五轮会谈之后,起草了一份正式的投资条款清单。全球利益公司的结构落实到了纸面上。“3-3-3 董事会”被明确规定。DeepMind 和 Alphabet 之间的技术许可协议也勾勒出了轮廓。在 2016 年夏天的几个月里,它看起来似乎真的可能实现。

然后,皮查伊出手了。

更强硬的一面

2016 年 11 月 21 日,谷歌的首席法务官大卫·德拉蒙德(David Drummond)抵达伦敦。他承认大家都有着相同的 AI 安全目标。然后他表示,对分拆存在“担忧”,并引入了一个模糊的替代方案——不完全是独立,也不完全是现状,具体细节也未定义。四天后,哈萨比斯和苏莱曼在电话里联系上了皮查伊。

马拉比写道,在那次谈话中,皮查伊“展现了他性格中更为强硬冷酷的一面”。他的论点是结构性的且毫不含糊的:AI 不再是 Alphabet 意义上的“登月计划”。它不再适合像 Waymo 和 Verily 那样作为半独立的押注项目被分拆出去。AI 现在被认为是谷歌核心产品(搜索、云、助手)的战略中心。 它不能被置于谷歌的利益仅占董事会三分之一的治理结构之下。

条款清单就此宣告死亡。

哈萨比斯和苏莱曼转向了 B 计划:筹集 50 亿美元的外部投资承诺,并利用集体辞职的切实威胁来迫使谷歌妥协。如果谷歌不愿主动给予独立,也许他们可以让“允许独立”的代价低于“失去整个 DeepMind 团队”的代价。

阿西洛马会议 (Asilomar)

2017 年 1 月,苏莱曼参加了阿西洛马 AI 安全会议。他与 LinkedIn 联合创始人里德·霍夫曼(Reid Hoffman)坐了下来,霍夫曼之前曾出于安全原因向 OpenAI 承诺了一笔相对适中的资金。苏莱曼陈述了他的理由:这是人类历史上最具影响力的技术,它不应该被单一公司控制,而这里有一个治理结构可以防止这种情况发生。

霍夫曼当场同意将他净资产的四分之一以上投入到这个愿景中——超过 10 亿美元。这是他向 OpenAI 承诺金额的一百倍。

他的表达很直接:“这是我有生之年最具影响力的技术……这项技术不应被用来巩固垄断。”这 10 亿美元不仅仅是财务承诺。它是杠杆策略的锚点——哈萨比斯和苏莱曼要让他们的辞职威胁变得可信,所需的 50 亿美元中的第一笔,也是最大的一笔。

阿维莫尔 (Aviemore)

2017 年 6 月,DeepMind 的大约 500 名员工乘坐包机飞往阿维莫尔,这是苏格兰高地巴尔莫勒尔附近的一个度假小镇。这次全公司务虚会有一个特定的议程。

苏莱曼走上舞台,展示了一张名为**“DeepMind:一家全球利益公司”**的幻灯片。组织结构图显示 DeepMind 是独立的,仅通过代表技术许可协议的虚线与谷歌相连。在这种结构下,苏莱曼将领导重新并入谷歌本体的应用 AI 部门,而哈萨比斯将领导一个向新董事会汇报的半独立 AGI 研究部门。苏莱曼甚至已经告诉他的副手们开始准备搬迁到加州。

员工们惊呆了。这不是讨论。这是一个公告。经过三年谈判的独立似乎成真了,似乎迫在眉睫,似乎尘埃落定。

十天后,谷歌将到处都是红线修改痕迹的谈判文件发了回来。皮查伊没有批准在阿维莫尔宣布的计划。加州的搬迁被取消。苏莱曼被迫回到这 500 人面前,收回他告诉他们的一切。关于全球利益公司的幻灯片被彻底雪藏了。

财务现实

在治理争论的背后,是马拉比没有回避的算术现实。DeepMind 正在亏损巨额资金。仅在 2019 年,它就亏损了 4.77 亿英镑——约合 6.49 亿美元。那一年,Alphabet 免除了其累计 11 亿英镑的公司间贷款。DeepMind 2019 年的总收入为 2.66 亿英镑,几乎全部来自谷歌支付的研发费用。认为 DeepMind 在结构上应该独立的论点,在财务上等于要求谷歌去补贴一个它无法控制其利益的独立组织。从这个角度来看,皮查伊“更强硬的一面”并非企业独裁。这是关于谁在开支票的合理观察。

Google 助手采用了 WaveNet,数据中心冷却 AI(将谷歌的冷却能源费用降低了 40%),2018 年推出商业文本转语音 API,每百万字符收费 16 美元——这些都不是偶然。它们是谷歌内部用来证明 DeepMind 的技术已经成为谷歌核心产品承重墙的证据,因此不能将其置于谷歌无法控制的治理结构之下。

哈萨比斯的结论

到 2021 年 4 月,一切都结束了。在一次全体员工会议上,哈萨比斯告诉 DeepMind 员工,关于独立的谈判已彻底结束。DeepMind 将保留其现有地位,继续留在 Alphabet 内部。

最引人注目的是哈萨比斯从这次经历中得出的结论——这个结论几乎完全颠覆了整个努力所建立的前提。在向马拉比回顾这件事时,他说:

“安全不在于治理结构……讨论这些事情并没有什么帮助。它反而让建立有用的信任变得更加困难,因为当你试图谈判一个无需信任的结构时,这就意味着你无法信任对方。”

三年的马里奥计划没有产生新的法律结构,没有产生独立的伦理委员会,产生了一个被悄悄解散的秘密对冲基金,在阿维莫尔发布了一个不得不撤回的全公司公告,并导致了 DeepMind 在运营方面最能干的联合创始人离开。而在这一切结束时,哈萨比斯得出结论,整个计划的设计都是错误的。治理结构不是重点。信任才是重点。而当你试图谈判那些在缺乏信任时才存在的结构时,你是无法建立信任的。

马拉比将此视为 DeepMind 故事的核心讽刺:这个曾从所有 AI 收购案中争取到最详尽安全保证的组织发现,这些保证没有一条站得住脚,并从中得出结论,认为不是需要更好的保证,而是“保证”本身就是错误的方法。在哈萨比斯修正后的观点中,安全必须被内置于技术之中。它不能通过组织架构图强加进去。

2023 年 4 月,DeepMind 和 Google Brain 合并为一个单一部门——Google DeepMind——由哈萨比斯担任 CEO。合并被包装成是为了实现更快的进展。但对于任何一直关注此事的人来说,这也意味着哈萨比斯和苏莱曼花了近十年时间试图维持的独立性的正式终结。在 Alphabet 的财务报表中,DeepMind 从“其他押注(Other Bets)”转移到了公司成本中——这反映出它不再是曾经的边缘项目,而是成为了战略中心。

发起这一切的苏莱曼,那时已经在管理微软的 AI 部门了。


第十四章:生物学界的费马大定理

1637 年,法国数学家皮埃尔·德·费马(Pierre de Fermat)在他那本《算术》(Arithmetica)的页边空白处潦草地写下了一条笔记。他声称自己发现了一个证明,即没有任何三个正整数可以满足 an+bn=cna^n + b^n = c^n(当 n 大于 2 时)。他补充说,页边太窄,写不下。他于 1665 年去世,从未将其写下来。

这个证明花了 358 年才被找到。安德鲁·怀尔斯(Andrew Wiles)在 1995 年发表了它,使用了费马当时根本无法接触到的数学工具:椭圆曲线、模形式,以及一份地球上很少有人能看懂的 200 页论证。这个问题曾挫败了几代数学家,他们使用越来越强大的工具去攻克它,然后它在一种从外界看来几乎像是在作弊的方法面前,似乎在一夜之间就崩溃了。

蛋白质折叠问题曾明确被称为生物学界的费马大定理。这种对比在超越“问题很难,表述优雅”的特定层面上非常贴切。两者在表述上都具有欺骗性的简单。但一旦你尝试解决它们,都会极其困难。两者都产生了长达数十年的失败尝试,以及那种感觉像是在进步但永远无法得出最终答案的局部洞见的逐渐积累。最终,两者都是通过完全绕开原始机制的方法被攻克的——怀尔斯使用了费马闻所未闻的工具;DeepMind 使用了现有数据中的模式,而这些模式对“蛋白质为什么会这样折叠”没有做出任何直接解释。

问题背后的问题

蛋白质折叠问题的现代形式起源于相隔十年的两项发现。

1962 年,美国国立卫生研究院(NIH)的克里斯蒂安·安芬森(Christian Anfinsen)证明,当恢复到正常条件时,一种未折叠的酶——核糖核酸酶 A——会自发地重新折叠成其活跃的形状。这就是热力学假说:蛋白质的三维结构完全由其氨基酸序列决定。序列就是完整的说明书。其他一切——折叠的形状、功能、与其他分子的相互作用——都源于此。因为这一见解,安芬森获得了 1972 年的诺贝尔化学奖。

这一结论的含义既令人震惊又令人沮丧。如果一种蛋白质总是折叠成相同的形状,而且这种形状被编码在其序列中,那么原则上你应该能够从序列预测出形状——这是一个纯粹的计算问题。它有着和费马大定理一样的欺骗性简单:陈述是显而易见的。困难在于其他一切。

麻省理工学院的生物物理学家赛勒斯·莱文塔尔(Cyrus Levinthal)在 1969 年量化了这种困难。一个由 100 个氨基酸组成的典型蛋白质,其主干上的每个键大约有三种可能的旋转状态。这产生了大约 31003^{100} 种可能的构象——大约是 104710^{47}。以皮秒级速度(分子运动能达到的最快速度)对它们进行采样,穷举搜索所需的时间将超过宇宙的年龄。对于更大的蛋白质,这个数字变得像宇宙学数字一样庞大:估计达到 1030010^{300} 种构象。

悖论在于:然而蛋白质在细胞中只需毫秒到微秒就能正确折叠。它们不可能在进行随机搜索。折叠路径必然受到能量景观的引导,该景观将序列迅速漏斗式引导至其最低能量配置。从第一性原理出发识别和计算这种景观,是结构生物学五十年来一直致力于解决的挑战。

这个问题有一个正式的试验场:CASP(国际蛋白质结构预测技术评估大赛),自 1994 年起每两年举办一次。参与者会收到已经通过实验确定结构但尚未公布的蛋白质氨基酸序列。他们提交预测的结构。评估者衡量预测与真实实验形状的接近程度。二十四年来,进展是真实的但却是渐进的——缓慢积累的局部胜利,没有完整的解决方案。

刚才发生了什么?

在 2018 年 12 月于坎昆举行的 CASP13 上,AlphaFold 1 获胜了。安德鲁·西尼尔(Andrew Senior)和约翰·江珀(John Jumper)领导了该团队。AlphaFold 1 的核心架构洞见——由西尼尔的团队开发——不是直接预测完整的三维结构,而是预测链中所有残基之间成对距离的概率分布。然后,这些距离分布被用作约束条件,以找到最一致的 3D 形状。这不是穷举搜索,也不是安芬森的生物物理学。这是对数百万相关蛋白质突变演化记录的统计推断。

CASP13 的结果是:在 43 个自由建模目标中,AlphaFold 1 预测了 24 个高精度的结构,而排名第二的方法只有 14 个。一位花了多年时间构建自己预测程序的计算结构生物学家穆罕默德·阿勒库莱希(Mohammed Al-Quraishi)写了一篇博客文章,标题精准地捕捉了该领域的反应:“刚才发生了什么?”(What just happened?)

他原以为要到 2020 年代末才会出现这样的结果。那些花费毕生精力手工制作算法的学术界蛋白质折叠团队,被一个只研究了大约两年的团队击败了。

哈萨比斯看着 CASP13 的结果,却看到了别的东西。据报道,一名团队成员想要宣布胜利并继续前进。哈萨比斯拒绝了。“赢不是目的。解决蛋白质折叠问题才是。”AlphaFold 1 的最佳结果与真正的实验精度之间的差距仍然显而易见。他让团队回去继续工作。

CASP14

在新冠疫情笼罩的 2020 年 11 月,CASP14 以线上方式举行。大约有 100 个蛋白质结构作为目标。分数出来了。

AlphaFold 2 的中位 GDT_TS(即预测在其真实位置可接受阈值内的残基百分比)达到了 92.4。低于 90 被认为是好但不完美的。对于大约三分之二的目标,AlphaFold 2 达到了与实验误差无法区分的精度。原子位置的平均误差约为 1.6 埃——大约是一个原子的宽度。

AlphaFold 2 赢得了 97 个目标中 88 个的最佳预测。在衡量偏离基准表现统计偏差的正式 z-score 排名中,AlphaFold 2 获得了 244.0 分。排名第二的团队得分为 90.8——不到它的一半。

曾联合创办 CASP 并将几乎整个职业生涯都奉献给蛋白质折叠的约翰·莫尔特(John Moult)说:“这是一件大事。在某种意义上,这个问题被解决了。”

曾花多年时间研究核糖体结构、时任英国皇家学会主席的诺贝尔奖得主文卡·拉马克里希南(Venki Ramakrishnan)称其为“一项惊人的进步……比该领域许多人预测的早了几十年。”

图宾根马克斯·普朗克发育生物学研究所所长、CASP14 评估员安德烈·卢帕斯(Andrei Lupas)说:“这是一个改变游戏规则的成果。它将改变医学。它将改变研究。它将改变生物工程。它将改变一切。”

他的个人经历比这些总结还要生动。近十年来,卢帕斯一直试图使用 X 射线晶体学来解析一种特定膜信号蛋白的结构,但都失败了。在公开发布之前,他获得了使用 AlphaFold 2 的权限。“正确的结构在半小时内就显现出来了,”他说。“这简直令人震惊。”

穆罕默德·阿勒库莱希的第二篇博文有一个不同的标题:“AlphaFold2 @ CASP14:感觉就像自己的孩子离家出走了”。他写道,他“有生之年从未想过会看到如此迅速的科学进步”,而且 AlphaFold 2 代表了“一种深刻、史无前例的地震般转变,字面意义上在一夜之间颠覆了一个领域。”这个标题捕捉到了在结构生物学界蔓延的一种矛盾心理:这项成就在全球被公认为非同凡响;但从某种意义上说,一个人一生的工作也变得不再必要了。孩子比所有人预期的长得都要快,并且离开了。

开放数据库

2021 年 7 月 15 日,DeepMind 在《自然》(Nature)杂志上发表了 AlphaFold 2 的论文,并同时推出了与欧洲生物信息研究所(EMBL-EBI)联合构建的 AlphaFold 蛋白质结构数据库。首批发布包含了约 365,000 个结构:人类的完整蛋白质组以及 20 种模式生物——基本上包含了研究人员最常用的每一种蛋白质。

在 AlphaFold 之前,整个蛋白质数据库(Protein Data Bank)——经过五十年来通过煞费苦心的 X 射线晶体学、冷冻电子显微镜和核磁共振光谱技术组建而成——仅包含大约 180,000 个结构。一天之内的发布就使这个数字翻了一番。

2022 年 7 月,数据库扩展至涵盖来自超过一百万个物种的 2 亿个蛋白质——基本上是整个已知的蛋白质宇宙,地球上每一个已测序的生物。此后,超过 190 个国家的 300 多万研究人员使用了它,其中包括中低收入国家超过一百万的用户,他们以前从未有机会接触过通过实验确定结构所需的生物学基础设施。以前需要耗费数年实验室工作的研究,现在可以在几小时内从一个 AlphaFold 结构开始了。

下游影响是具体而有形的。研发疟疾疫苗的牛津实验室利用 AlphaFold 确定了疟原虫上一种关键表面蛋白的首个全长结构——准确揭示了阻断传播的抗体是如何附着在上面的,并解锁了一种疫苗设计,该设计促成了世卫组织在 2023 年推荐的 R21/Matrix-M 疟疾疫苗。一种十年来一直难以识别的、对理解抗菌素耐药性至关重要的细菌蛋白质结构,在大约 30 分钟内被解析出来。核孔复合体(控制进出细胞核的“守门人”,也是多种疾病的靶点)通过结合 AlphaFold 和冷冻电镜,产生了一个近乎完整的结构模型。针对被忽视疾病的药物研发管线得到了扩展,将 AlphaFold 结构应用于南美锥虫病和利什曼病。

2024年10月9日

在宣布诺贝尔奖之前,诺贝尔基金会费尽周折才找到戴密斯·哈萨比斯的联系方式。他在向公众宣布的大约二十分钟前才得知获奖的消息。

在随后录制的电话采访中,他说:“这真是不可思议的特别……实际上非常超现实……还没完全回过神来。说实话,我脑子一片空白。”

后来他补充道:“这真的是最高荣誉。”

39 岁的约翰·江珀成为了七十年来最年轻的诺贝尔化学奖得主。他的第一反应是:“这绝对是非凡的。”在一份更完整的声明中,他描述了驱使他的动力:“我们所做的事情和人们变得健康之间可以画出一条直线,这是因为我们在细胞层面以及其他所有方面对生物学有了新的认识,这真是太了不起了。”他的获奖之路充满了偶然——他曾在范德堡大学攻读物理学博士,觉得毫无乐趣便离开了,找了一份编写蛋白质建模程序的工作,然后又回到芝加哥大学攻读化学博士,他自称是“意外的化学家”。他于 2017 年加入 DeepMind,基本上把自己的职业生涯押在了“机器学习将破解生物学核心谜团”这一想法上。七年后,诺贝尔奖到了。

这项化学奖与华盛顿大学的大卫·贝克(David Baker)共同分享,他凭借逆向成就获得了另一半奖金:设计出全新的、在进化史上没有先例的蛋白质,并能以原子级精度折叠成指定的形状。在谈到与 DeepMind 团队共同获奖时,贝克说:“与其说他们是竞争对手,我更愿意说他们极大地启发了我们认识到深度学习的力量。”

2024 年的诺贝尔颁奖季在另一个方向上同样引人注目:杰弗里·辛顿(Geoffrey Hinton)凭借在神经网络方面的基础性工作分享了物理学奖。同一年,AI 同时赢得了物理学诺贝尔奖和化学诺贝尔奖。委员会主席称 AlphaFold 2 是“神经网络设计的一项天才之作”。一切从哈萨比斯阅读《安德的游戏》开始,从他在海马体的研究开始,从他决定不接受那份电子游戏工作开始——最终在斯德哥尔摩画上了句号。

马拉比对这一章的架构直接赋予了它的标题。蛋白质折叠从来不是一个可以按照其最初表述方式来解决的难题。就像费马的页边笔记一样,它需要的问题首次提出时还不存在的工具。当解决方案最终到来时,它并不是来自该领域一直寻找的方向,而是来自相邻的学科,通过绕过问题而不是回答问题的方法。而且,它的到来,比那些为此奉献了一生的人所认为的要早了几十年。


第十五章:权力与荣耀

2024 年 12 月 10 日晚,在斯德哥尔摩音乐厅(Konserthuset),戴密斯·哈萨比斯和约翰·江珀从瑞典国王卡尔十六世·古斯塔夫(Carl XVI Gustaf)手中接过了他们的诺贝尔奖章和证书。音乐厅座无虚席。仪式向全球转播。两天前,哈萨比斯在斯德哥尔摩大学的大礼堂发表了他的诺贝尔获奖感言,题目是“用 AI 加速科学发现”。他把随后在诺贝尔基金会留言簿上签名的时刻形容为“圆满”的时刻——在学生时代,他曾看过电影《寻找双螺旋》(The Race for the Double Helix),而现在,他的名字将与他读了一辈子其事迹的科学家们并列。

他使用了三十年的那个公式在演讲中再次浮现。第一步,解决智能问题。第二步,用它来解决其他一切问题。

在任何人认真对待他之前,哈萨比斯就已经在说这句话了。当他凭着一盘国际象棋从彼得·蒂尔和卢克·诺塞克那里筹集到 230 万美元时,他说过。在与拉里·佩奇的收购谈判中,他说过。在 DeepMind 年度亏损超出收入数亿英镑,并由一家需要看到回报的公司承保的那些年里,他也说过。现在,他在斯德哥尔摩的讲台上,在这个几十年来一直忽视人工智能领域、认为其不够严谨算不上正规科学的同一个科学界建制派面前,又说了一遍。

从某种意义上说,诺贝尔化学奖是科学界建制派正式承认自己错了。

诺贝尔奖引发的辩论

2024 年的诺贝尔颁奖季是史无前例的。杰弗里·辛顿因其在神经网络方面的基础性工作分享了物理学奖。哈萨比斯和江珀因 AlphaFold 分享了化学奖。在一个十月的一周内,人工智能赢得了科学界最负盛名的两项大奖。

对此的反应沿着可预见的路线出现了分歧。

安德烈·卢帕斯(那个困扰了他十年、无法解析的膜蛋白在半小时内就向 AlphaFold 屈服了)称其为“改变游戏规则的成果”。诺贝尔奖得主文卡·拉马克里希南称其为“惊人的进步”。结构生物学界——那些最直接的受益者——态度基本是毫不含糊的支持。

物理学界的分歧则大得多。伦敦帝国理工学院的乔纳森·普里查德(Jonathan Pritchard)在社交媒体上写道,他“无言以对”,努力试图理解辛顿的奖项如何构成“一项物理学发现”。萨比娜·霍森菲尔德(Sabine Hossenfelder)将机器学习描述为属于计算机科学范畴。计算机科学家温迪·霍尔(Wendy Hall)认为,在没有计算诺贝尔奖的情况下,委员会通过物理学颁发该奖项是“有创意”的做法。这里的潜台词很尖锐:如果 AI 理应获得诺贝尔奖,目前却没有一个完全吻合的类别,委员会只是在即兴发挥。

更深层次的争论是哲学层面的。在奖项颁发前后发表在《通讯生物学》(Communications Biology)上的一篇论文,承认了 AlphaFold 的“巨大影响”,但随后指出蛋白质折叠问题“不能被认为是解决了”——至少在理解机制的意义上没有解决。AlphaFold 预测出了准确的结构,但并没有揭示蛋白质为什么会那样折叠。批评非常精准:系统的成功在于它从现有的实验记录中学习模式,而不是发现了底层的物理规律。安德烈·卢帕斯长达十年的难题被解决了。但折叠过程是否被理解了,则是另一个问题。

这场辩论直指哈萨比斯公开声明的哲学。他一直坚持认为 DeepMind 的目标不是设计出单纯的模仿,而是产生真正的理解——构建能够像科学家一样运作,而不仅仅是预测器的 AI。AlphaFold 被赞誉为这种方法的胜利。而批评者指出,从某个角度看,它也像是一个极其复杂的模式匹配器,它学会了在已知结构之间进行插值,而不是从第一性原理推导原则。这种区别是否重要——当输出结果无法区分时,“学习模式”和“理解机制”之间是否存在有意义的差异——这个问题目前还没有一个清晰的答案。

现代贝尔实验室

哈萨比斯创立 DeepMind 时,有着一个明确的机构模型:贝尔实验室。这家隶属于 AT&T 的研究部门,在 1925 年至 1984 年期间,在贝尔系统垄断的庇护下运营,产生了十个诺贝尔奖、五个图灵奖,以及晶体管、激光、Unix 操作系统、信息论和蜂窝电话技术。它的研究人员享有终身雇佣的保障,没有发布产品的义务,并且能够与领域内最优秀的同事合作。他们跟随好奇心的指引去探索。

哈萨比斯希望在伦敦重建这一切,由谷歌的资源而不是垄断特许经营权来资助。配方是一样的:世界级的研究人员,使命级的目标,能够在一个商业组织无法容忍的时间跨度内自由研究重要问题的权力。

贝尔实验室的比喻有其两面性。1982 年 AT&T 的解体使贝尔实验室暴露在竞争压力之下,随后它便走向了衰落。它历经六十年建立起来的研究文化,一旦需要为其商业合理性辩护,在短短几年内就被瓦解了。这家为世界带来晶体管的机构,无法在失去结构性庇护后生存下来。

2022 年 11 月的 ChatGPT 时刻,就是 DeepMind 的 AT&T 解体时刻。突然之间,谷歌耐心的庇护伞——那种只要 DeepMind 在科学上保持卓越就可以追求基础研究的隐性契约——被竞争压力取代了。皮查伊宣布了“红色警戒”(Code Red)。宣布了与 Google Brain 的合并。现在身为拥有 7,600 人组织 CEO 的哈萨比斯,发现自己“每天多次与皮查伊谈论模型架构和竞争情报”——马拉比指出,这种工作节奏,在三年前他还在管理一个只发表论文而不发布任何产品的半自主研究实验室时,是不可想象的。

他说:“我想成为像现代贝尔实验室那样,培育探索性的创新,而不仅仅是扩大今天已知的东西的规模。”但在 2022 年之后,他也说过:“我们不得不几乎回到了我们初创或企业家的根源——变得更具斗志,速度更快,极快地交付东西。”

这两件事在同一时间都是真实的。

AlphaFold 3 的矛盾

2024 年 5 月,在宣布诺贝尔奖的五个月前,DeepMind 在《自然》杂志上发表了 AlphaFold 3。新系统能够预测蛋白质与其他分子(DNA、RNA、小分子候选药物)之间的相互作用——这是药物发现领域的一项重大进步。这篇论文伴随着重大的科学宣传。

但它没有同时公开代码。

与完全开源发布、被诺贝尔委员会引用、并被 190 个国家超过三百万研究人员使用的 AlphaFold 2 不同——AlphaFold 3 只能通过受限的网络服务器访问。最初每天限额 10 次查询,后来增加到 20 次。明确禁止涉及新型药物类分子的预测。

原因是商业性的。Isomorphic Labs——DeepMind 的药物发现衍生公司——建立在 AlphaFold 技术之上,并已获得了 Eli Lilly 和 Novartis 价值 30 亿美元的合作伙伴关系。完全发布 AlphaFold 3 就等于将同样的工具交给了竞争对手。DeepMind AI 科学负责人普什米特·科利(Pushmeet Kohli)直白地陈述了立场:“我们必须取得平衡,既要确保它可供访问并在科学界产生影响,又不能损害 Isomorphic 开展商业药物发现的能力。”

超过一千名科学家签署了一封抗议信,称该出版物未达到“科学界在可用性、可扩展性和透明度方面的标准”。审稿人曾在发表前要求访问代码;但请求被拒绝了。研究人员表示,虽然获得了网络服务器版本的访问权限,但无法测试该方法的声明。《自然》杂志还是接受了这篇论文。

六个月后——也就是在其开源的前身获得诺贝尔奖的一个月后——代码被发布了,但仅限非商业用途。权重可以应要求提供。商业限制则是永久性的。

这一事件序列是马拉比书中主题的缩影。诺贝尔奖所推崇的价值观,正是 AlphaFold 3 的发表已经开始背离的价值观。这个奖项庆祝的是旧的 DeepMind——那个将工作成果向世界公开、以科学影响力衡量成功的 DeepMind。而 AlphaFold 3 表明,新的 DeepMind——深植于谷歌的商业生态系统中,运营着一家药物发现衍生公司,在季度竞争压力下运作——做出了不同的选择。

两个 DeepMind

本章标题源于这两者之间的差距:一种是权力(Power),它是真实的、不断增长的、现在获得了诺贝尔奖认证的;另一种是荣耀(Glory),它是在如今已不完全适用的条件下赢得的。

AlphaFold 2 的训练成本不到 100 万美元。而科技巨头在 2025 年合计年度 AI 基础设施投资超过 2500 亿美元——企业投资与联邦科学资金的比例大约是 75 比 1。构建 AlphaFold 的研究人员——那些在最小的商业压力下、在以发表成果衡量成功的文化中研究了多年蛋白质折叠的人——与现在在竞争压力下开发 Gemini 的研究人员是不同的一群人,后者知道,每一次失败都会登上头版,引发关于谷歌是否输掉了 AI 竞赛的讨论。

哈萨比斯对此看得很清楚。“如果能按我的想法来,”他在一次采访中说,“我们会把它留在实验室里更长时间,做更多像 AlphaFold 这样的事情,也许治愈癌症或类似的东西。”他描述的是他最初的愿景——一个类似欧洲核子研究中心(CERN)的机构,深思熟虑,科学化,花几十年时间去追求 AGI——并将其与 ChatGPT 时刻迫使他做的事情进行了对比。他并没有选择这次转型。是竞争环境替他做出了选择。

诺贝尔奖回报给了他一些东西:政治资本。在内部,这个奖项在一定程度上是一面盾牌——它提醒谷歌管理层,旧的 DeepMind 模型产生了前所未有的东西,那些“习惯于研究蛋白质折叠和等离子体物理学”的研究人员,不能毫无损耗地被简单地重新部署去构建聊天机器人。在外部,这是对他十年来论点的辩护:纯科学和 AI 能力是相辅相成的,而不是相互对立的。

这个论点在未来是否还站得住脚,是这个奖项无法回答的问题。AlphaFold 诞生于一种条件——时间、自主性、科学文化、不受商业期限的限制——而这些条件现在已经受到了极大的约束。Gemini 是 DeepMind 对 ChatGPT 的竞争性回应,它是一个严肃且在不断进步的系统;Gemini 2.5 在数学基准上取得了在三年前看来是不可能实现的极具竞争力的结果。但它是在不同的流程、不同的激励机制、不同的目标下诞生的。

2024 年 12 月,哈萨比斯站在斯德哥尔摩音乐厅,领取了一枚奖章,这项工作始于他从首尔回来的第二天,当时 AlphaGo 的比赛刚结束,他正在思考接下来该做什么。促成 AlphaFold 的条件——可以忽略商业相关性、去研究蛋白质折叠仅仅是因为它重要、容易处理且值得做的自由——在奖项到来时已经大幅缩减。权力与荣耀并没有同时到来。荣耀到来时,孕育它的条件已经改变了。


第十六章:竞速GPT (RaceGPT)

2022 年 11 月 30 日,OpenAI 发布了一项低调的公告:推出一款名为 ChatGPT 的新聊天机器人,免费向公众开放。没有新闻发布会。没有主题演讲。只有一篇博客文章。团队本来只预计会有几千名好奇的用户。

五天内,就有一百万人使用了它。

六十天内,达到了一亿。科技史上没有任何一款消费级应用程序增长得如此之快。TikTok 用了九个月才达到一亿用户。Instagram 用了两年半。ChatGPT 只用了两个月——这个数字极端到,负责分析的投行瑞银(UBS)干脆称其为“史上增长最快的消费级应用”就完了。

改变一切的简单洞见

支持 ChatGPT 的模型并不是 OpenAI 最强大的。它运行在 GPT-3.5 上,这是一个拥有大约 1750 亿个参数的系统,使用了名为“基于人类反馈的强化学习”(RLHF)的技术进行微调,这是 OpenAI 在当年早些时候以 InstructGPT 的名义发表的方法。

RLHF 背后的洞见具有欺骗性的简单。早期的语言模型被训练成从互联网文本中预测下一个标记。这使得它们流畅却又怪异:它们以互联网上接下来的任何东西的统计风格来补全文本,其中包含了大量的错误信息、恶意内容和语无伦次。InstructGPT 用一个不同的目标取代了那个目标:训练人类评估员对模型输出的质量进行打分,然后微调模型以最大化这些人类偏好。

结果令人震惊。一个 13 亿参数的 InstructGPT 模型——通过人类反馈进行了微调——在人类评估中胜过了拥有 1750 亿参数的原始 GPT-3。参数少了 100 倍,却有用了 100 倍。瓶颈从来不是原始能力。而是对齐(alignment)——将一个用来补全文本的系统变成一个能够回应人类的系统。一旦这个问题被解决,潜藏在大型模型中一直存在的能力就变得触手可及。

ChatGPT 让这种触手可及变成了切身体会。你输入一个问题。它给出答案。你要求它写代码,向一个九岁的孩子解释一个概念,起草一份法律备忘录,扮演一位历史人物,或者调试一个 Python 脚本。它在同一次对话中流利地完成了所有这些事情,无需任何特殊设置。第一次向它输入查询的人将其体验描述为他们以前从未遇到过的东西。传播开来的词不是“令人印象深刻”。而是“不一样”。

红色警戒 (Code Red)

在位于山景城的谷歌总部,传播开来的词则没有那么中立。

2022 年 12 月,随着 ChatGPT 的用户图表呈垂直上升趋势,桑达尔·皮查伊宣布全公司进入紧急状态。从谷歌内部泄露出来的词是“红色警戒(Code Red)”——借用了医院的紧急协议术语,意思是发生大规模伤亡事件,暂停正常运作,全员严阵以待。皮查伊召开了紧急会议。来自研究、信任与安全以及其他部门的团队被重新分配。目标是在 2023 年 5 月的 Google I/O 大会之前,展示 20 多个新的 AI 产品以及集成了聊天机器人版本的搜索。

谷歌拥有语言模型。它有 LaMDA、PaLM、Chinchilla。它的研究人员写了该领域许多基础性的论文。多年来,他们深思熟虑的判断是不把它们作为消费产品发布——这结合了对输出有害内容声誉上的谨慎,以及对可能蚕食每年产生 1600 亿美元收入的搜索广告业务的战略焦虑。回想起来,这种谨慎拱手将十年来最重要的消费级技术发布的首发优势让给了 OpenAI。

拉里·佩奇和谢尔盖·布林在 2019 年就已经退出了日常运营。ChatGPT 把他们拉了回来。两人都与皮查伊和高管举行了紧急会议,审查了 AI 产品战略,并提出了想法。谢尔盖·布林每周来办公室三到四天。2023 年 1 月 24 日——在 ChatGPT 发布不到两个月后——布林提交了一份代码请求,要求访问谷歌自己的语言模型 LaMDA。这是他多年来第一次亲手提交代码。谷歌的联合创始人正在亲自编写代码,以帮助谷歌追赶一家初创公司。

昂贵的错误

2023 年 2 月 6 日,谷歌预告了 Bard——它对 ChatGPT 的聊天机器人回应。原定于 2 月 8 日在巴黎举行一场发布活动。微软也计划在 2 月 7 日举行自己的 AI 活动,显然谷歌试图抢先一步。

巴黎的活动并没有按计划进行。在谷歌自己发布在社交媒体上用于宣传 Bard 的一个动图(GIF)中,聊天机器人被问道:“关于詹姆斯·韦伯太空望远镜,我能告诉我 9 岁的孩子哪些新发现?”Bard 给出了几个要点,包括声称詹姆斯·韦伯太空望远镜“拍摄了太阳系外行星的第一批照片。”

这是错的。第一张系外行星图像是由欧洲南方天文台的甚大望远镜(Very Large Telescope)在 2004 年拍摄的,早了将近二十年。路透社在巴黎活动开始前就发现了这个错误。这个故事立即传开了。

2023 年 2 月 8 日——也就是谷歌巴黎 AI 活动举行的当天——Alphabet 的股价下跌了 7.7%。大约 1000 亿美元的市值在一个交易日内蒸发。这个错误出现在谷歌自己的广告材料中。它涉及一个可以通过基本的谷歌搜索轻松验证的事实声明。它发生在谷歌试图证明自己能与 OpenAI 竞争的那一天。这可能是企业史上最昂贵的单一事实错误。

微软让他们跳舞

在谷歌 Bard 灾难发生的前一天,微软在其雷德蒙德总部推出了由全新 AI 驱动的 Bing(必应)。活动于 2 月 7 日举行,CEO 萨蒂亚·纳德拉(Satya Nadella)站在台上,以一种微软高管通常不被允许针对搜索领域表现出的得意姿态发表了演讲。

微软在 2019 年向 OpenAI 投资了 10 亿美元。在 2023 年 1 月,它在一项延续到 2032 年的多年合作关系中承诺再投入 100 亿美元。新版 Bing 运行在比公共版 ChatGPT 更强大的下一代 OpenAI 模型上,并针对搜索进行了定制。候补名单在 48 小时内累计了超过一百万次注册。

纳德拉的措辞毫不含糊:“比赛从今天开始,我们将快速行动,快速行动。”随后,在观看了谷歌 Bard 发布的崩盘后,他对《财富》杂志说:“我想让人们知道,是我们让他们跳舞的。”

二十年来,微软在搜索领域一直是个遥远的落败者/陪跑者。自 2009 年以来,Bing 的市场份额大约只占 3%,而谷歌占 93%。这是有史以来第一次,出现了一条切实可行的路径,可以挑战商业史上最赚钱的广告特许经营权。

Transformer 的回归

贯穿这一章的结构性讽刺,是马拉比反复提及的一点。谷歌在 2017 年发明了 Transformer 架构。那篇由诺姆·沙泽尔(Noam Shazeer)等八位谷歌研究员撰写的论文——《注意力机制就是你所需要的一切》,成为随后每一个主要大型语言模型的基础,包括 GPT、ChatGPT,以及现在威胁谷歌核心业务的那些系统。

这八位作者最终都离开了谷歌。其中六位创办了初创公司,合计从外部投资者那里筹集了 13 亿美元。

诺姆·沙泽尔共同发明了 Transformer,并在此后花了好几年时间在谷歌内部建立了一个对话型 AI 系统。当谷歌拒绝将其公开发布时,沙泽尔在 2021 年离开,并联合创办了 Character.AI,该公司建立了一个对话平台,并在两年内以 10 亿美元的估值筹集了 1.5 亿美元。当谷歌需要沙泽尔回来——帮助构建与那些基于他自己的架构建立的模型竞争的系统时——它在 2024 年支付了大约 27 亿美元收购 Character.AI。

谷歌花了 27 亿美元重新聘请的那个人,正是三年前谷歌拒绝给予他在谷歌内部构建对话 AI 自由度的那个人。引发这场竞争危机的底层架构是在谷歌内部发明的。而构建该架构的人却被允许离开。这一系列操作的代价是以数十亿美元来计算的。

停在草坪上的坦克

戴密斯·哈萨比斯对发生的事情并不平静。

当马拉比在 2023 年 4 月下旬为写这本书去拜访他时,哈萨比斯直接告诉他:“这是战时状态。OpenAI 和微软简直把坦克停在我们的草坪上了。”

他构建 AGI 的理想一直都很明确:“以类似 CERN(欧洲核子研究中心)的方式”,谨慎且科学,历时十年或更久,不受竞争竞赛的扭曲。他在多次采访中说过,如果由他自己判断,他“会把它留在实验室里更长时间,做更多像 AlphaFold 这样的事情,也许治愈癌症或类似的东西。”ChatGPT 时刻让这种愿景永远无法实现了。

DeepMind 并没有在睡觉。它有 Chinchilla、Gopher、Gato,以及可以说与 GPT-3.5 具有竞争力的系统。不同之处在于选择:DeepMind 做出了不发布聊天机器人的深思熟虑的判断,这根植于对话型 AI 不是通向 AGI 正确路径的理论,以及对公开发布不成熟系统的实际担忧。而 OpenAI 做出了不同的判断。在这两种选择之间的空白处,诞生了史上增长最快的消费级应用。

“语言比我们所有人预期的都要简单得多,”哈萨比斯后来坦言。“事实证明,Transformer 加上在其之上的强化学习就足够了。”正是这种简单性破坏了一切。如果通往能够进行复杂对话的系统的路径如此之短,那么谨慎的长期研究策略——从外界、从市场、从皮查伊的角度来看——就像是一种负担不起的奢侈品。

哈萨比斯告诉马拉比,ChatGPT 还“粉碎了由一个单一的、注重安全的实验室代表全人类开发 AGI 的单体场景(singleton scenario)的希望。”他在 2014 年设想的经过精心治理的、合作的未来——马里奥计划所有治理谈判所服务的对象——现在已经一去不复返了。现在赛道上不是两个资金充足的实验室在竞争。而是几十个。

加速

2023 年 3 月 14 日——在 ChatGPT 发布 104 天后——OpenAI 发布了 GPT-4。

这些数字精准且清晰。在统一律师资格考试(UBE)中,GPT-3.5 的成绩大约排在人类考生的后 10%。而 GPT-4 的成绩大约排在前 10%。在单一模型的世代更迭中,仅仅 104 天,一个系统就从考砸了律师资格考试,跃升到比近九成律师考得都要好。在 SAT 阅读考试中,它的成绩排在 93%。在医学执照考试题中,它的得分比及格线高出约 20 个百分点。

律师考试的飞跃成为了广泛传播的代名词。这不仅仅是因为 GPT-4 能力很强——而是四个月的进展所暗示的进步速度让人难以消化。这条曲线没有变平。它在变陡。

到 2023 年 4 月,Google Brain 和 DeepMind 合并的消息已经宣布。哈萨比斯现在是一个拥有 7,600 人组织的 CEO,每天多次与皮查伊谈论模型架构和竞争情报。他筹划了二十年的那种谨慎的、科学的、类似 CERN 的 AGI 发展方式已经不复存在,取而代之的是一种从外界看来更像是一场竞速比赛的东西。

对于 ChatGPT 打响了什么,哈萨比斯一直使用的词是“发令枪”。这场由它发起的比赛是否有一个对所有人都好的终点线,是他再也无法回避的问题。


第十七章:我们完蛋了 (We're Cooked)

当马拉比(Mallaby)在 2022 年 11 月 ChatGPT 刚发布后首次拜访哈萨比斯(Hassabis)时,后者的反应虽然非常克制,但态度明确。“塞巴斯蒂安,”哈萨比斯告诉他,“对手已经把坦克停在我们的前院里了。”

到了 2023 年 4 月,这个比喻升级了。“这是战时状态。OpenAI 和微软简直把坦克停在了我们的草坪上。”同样的意象,五个月后,火药味更浓了。这种态势的升级就是本章的故事——在这段时期,DeepMind 面临的不仅仅是竞争上的挫折,更是对其花了十三年时间建立起来的身份认同的一次更深层次的清算。

研究灵魂的抱怨

2023 年 2 月,哈萨比斯接受了瑞士报纸《新苏黎世报》(Neue Zürcher Zeitung)的采访。在一个长篇回答中,隐藏着他迄今为止对 AI 现状最坦诚的公开表态之一。他承认 DeepMind 现在也将追求语言模型的规模扩展——也就是催生了 ChatGPT 的那种方法——但他随后补充道:“我的研究灵魂对语音 AI 挑战的解决方案如此缺乏优雅感到有些失望:那仅仅是依靠更多算力和数据的暴力破解(brute force)。”

慢慢品味这句话。这个将其整个职业生涯都用来主张智能需要深层结构的人——他认为你无法通过在文本上扩展统计学来达到 AGI,认为世界模型、因果推理和强化学习是必不可少的——现在却在承认,暴力破解的方法已经足够有效,足以改变整个竞争格局。而且,他无论如何也要采用这种方法了。

马拉比这本著作的书评人将这部分描述为全书最引人入胜的章节:哈萨比斯“正在经历从 AI 乌托邦主义者到疲惫的现实主义者的转变”,这是一个关于“一位科学家发现获胜的答案在哲学上令人不满——却又必须付诸行动”的故事。这不是失败。这是一种更奇怪的感觉——在执行自身新战略的同时,在原则上对其保持着反对态度。

肖恩·列格是对的

肖恩·列格(Shane Legg)自 2001 年以来就一直说 AGI 即将到来。他曾告诉问他的人,基于呈指数级增长的算力和数据,到 2028 年实现 AGI 的可能性为 50%。二十年来,这听起来就像是一位才华横溢但自信得令人不安的联合创始人的个人意见。

在 ChatGPT 出现之后,这听起来就像是对现状的客观描述。

现在担任 Google DeepMind 首席 AGI 科学家的列格,并没有把 ChatGPT 时刻视为一场危机。他将其视为一种证实。在 2023 年 10 月的一次采访中,他简单地说:“一些根本性的东西已经改变了。”他在 2011 年曾写过关于 AIXI(一个通用智能的理论框架)的文章,他将大语言模型(LLM)视为“基于所有这些数据对世界进行压缩的、极其优秀的序列预测器”,这与该框架有着直接的联系。他说,从那里到 AGI 的差距,“只不过是再走一步而已。”

他认为情景记忆(episodic memory)是剩下的主要难题——目前的模型在上下文窗口内和训练期间进行学习,但缺失了关于经验的、持续的中间记忆。他并不认为这是一堵无法逾越的墙。他看到了相对清晰的前进道路。他的时间表二十五年来从未改变。改变的是世界对这个时间表的态度。

最关键的讽刺在于:列格最初的预测,基本上是被一种 DeepMind 在战略上不那么重视的方法所证实的。他从 2001 年起就坚持的时间表——一个在 DeepMind 存在之前、在 AlphaGo 之前、在定义该实验室的任何具体研究项目之前形成的时间表——结果证明它正沿着正确的曲线前进。但是,沿着这条曲线前进的并不是 AlphaGo 的强化学习。而是基于文本规模化扩展的 Transformer。列格在“何时”实现上是对的。但他在“如何”实现上却不一定正确。

行走的伤员

ChatGPT 之后的人才流失是切实可见的。在发布后的十二个月内,有十六名前 DeepMind 研究人员创立或参与创立了新企业——比前一年的七人增加了一倍多。这条曲线几乎精准地反映了这次竞争带来的冲击。

阿瑟·门施(Arthur Mensch)曾在 DeepMind 巴黎分部致力于高效语言模型的研究,并参与了 Chinchilla 项目。他在 2023 年离职,联合创立了 Mistral AI。该公司在成立三个月内发布了一款极具竞争力的开源语言模型,并筹集了 1.05 亿欧元的种子轮融资——这是当时欧洲规模最大的 AI 种子轮融资。门施表示 DeepMind“不够创新”,并描述了从研究转向交付产品的满足感。这种含蓄的批评非常尖锐:这个曾经将“研究优先”置于“产品优先”之上的组织,现在在竞争压力下,作为一家研究机构既不够快,在交付产品方面也不够投入。

在这一时期同样离开 DeepMind 去创业的 Sid Jayakumar 对当时的情绪表达得很直接:“向更加注重产品的方向转变,意味着一些更偏向前沿研究方面的人士士气低落。”那些为了纯粹科学而加入的研究人员发现,自己身处在一个已经宣布进入战时状态、削减蓝天研究项目、停止发表关键发现、并将资源重新分配给 Gemini 的组织中。对发表论文的限制尤为痛苦——这个曾经将开放科学文化作为其主要招募优势之一的组织,现在却在发布前对论文进行审查,并限制分享可能被竞争对手利用的研究成果。

马拉比可能认为最重要的一次离职发生在 2026 年 1 月,当时大卫·席尔瓦(David Silver)离开了 Google DeepMind,创立了 Ineffable Intelligence。席尔瓦绝非边缘人物——他是 AlphaGo、AlphaZero、MuZero 和 AlphaProof 的首席架构师,也是对 DeepMind 作为一家强化学习(RL)实验室身份贡献最大的研究员。红杉资本(Sequoia Capital)以 40 亿美元的估值支持了这家新企业,这是欧洲有史以来最大的一笔 AI 种子轮投资。席尔瓦给出的理由是对 LLM 时代最直接的否定:“我们想要超越人类已知的领域,为了做到这一点,我们需要一种不同类型的方法。”他明确地在押注:大型语言模型受限于人类知识的天花板,而前进的道路是“强化学习优先(RL-first)”的系统,它们从第一性原理中学习——就像 AlphaGo Zero 从零开始学习围棋那样。

悲恸

ChatGPT 之后,资深 AI 研究人员之间的情绪不仅仅是竞争焦虑。那是一种更接近于悲恸(grief)的情绪。

图灵奖得主、深度学习先驱之一的约书亚·本吉奥(Yoshua Bengio)花了一个月的时间体验 ChatGPT,并逐渐修正了他对时间表的认知。他以前认为变革性的 AI 还要“几十年到几个世纪”才能实现;到 2023 年中,他估计“在 5 到 20 年内实现的把握为 90%”。2023 年 8 月,他发表了一篇与其学术生涯中任何文章都不同的文章,题为《面对 AI 灾难性风险的 AI 研究人员的个人与心理维度》。他写道:“这很困难,因为接受随之而来的逻辑结论意味着要质疑我们自己的角色、我们工作的价值、我们自身的价值感……即使是产生这些想法也确实非常可怕,有时,我只希望能把它们挥之脑后。”他形容自己感到“绝望”,“不知道我们如何才能解决这个问题。”

杰弗里·辛顿(Geoffrey Hinton)于 2023 年 5 月离开了谷歌——这个时间点很关键——特别是因为他希望“能够谈论 AI 的危险,而不必担心它会如何影响谷歌的业务”。他以前认为 AGI 还有三十到五十年才会到来;ChatGPT 之后,他将预期修改为不到二十年。他告诉《麻省理工科技评论》:“我认为,人类只是智能进化过程中的一个过渡阶段,这是完全可以想象的。”他在另一个场合补充道,“现在的他,有一部分为自己一生的工作感到后悔。”

埃利泽·尤德科夫斯基(Eliezer Yudkowsky)的整个职业生涯都在主张 AI 安全是世界上最重要的问题。2023 年 3 月 29 日,他在《时代》周刊发表了一篇专栏文章,呼吁的不是暂停,而是全面停止(halt)。“我们没有准备好。我们在任何合理的时间窗口内都没有准备好的轨迹。没有任何计划……如果我们真的这样做,我们都会死。”他提出,那封有三万人签名、呼吁暂停六个月的公开信,是危险的杯水车薪。

2023 年 5 月 30 日,人工智能安全中心(Center for AI Safety)发表了一份只有一句话的声明:“减轻 AI 带来的灭绝风险,应该与大流行病和核战争等其他社会规模的风险一样,成为全球的优先事项。”在 350 多名签署者中,包括:萨姆·奥特曼(Sam Altman)、杰弗里·辛顿、约书亚·本吉奥和戴密斯·哈萨比斯。

当哈萨比斯被问及他个人认为 AI 导致人类灭绝的概率——这个“末日概率(p(doom))”估计已经成为该领域的标准问题——时,他说:“它绝对不为零,而且可能是不容忽视的。所以这本身就足以让人非常清醒了。”多年来他一直说安全很重要。而现在,安全变得迫在眉睫。

合并的文化冲击

即使以在竞争紧急状态下进行合并的标准来看,2023 年 4 月 Google Brain 和 DeepMind 的合并也进行得并不顺利。

这两个组织共存了近十年,马拉比称之为“富有成效的竞争,但经常演变成功能失调”。他们研究相同的问题,在相同的会议上发表论文,从相同的博士项目中招募人才,并经常在不知情的情况下重复彼此的工作。对谷歌计算资源的争夺是一个持续的痛点。在 2018 年的 NeurIPS 会议上,当 DeepMind 的研究人员向 Brain 的科学家询问他们的方法论时,一位 Brain 的研究人员回答说:“如果不是你们这帮家伙独占了我们所有该死的算力!”

文化上的鸿沟比算力问题更深。Google Brain 代表着山景城(Mountain View):节奏更快、以产品为导向、习惯了上市公司的节奏、深植于谷歌的基础设施中。DeepMind 则代表着伦敦:学术性、深思熟虑、拥有跨多年的研究视野、在设计上是半自主的。当哈萨比斯在合并后组织的第一次全体会议上宣布,新部门必须回归“初创公司或企业家的根源”,变得“更具斗志、速度更快、极快地交付东西”时,Brain 的研究人员听到的是对他们自身文化的一种认可。而 DeepMind 的研究人员听到的,却是他们当初为了逃避而离开学术界的那些东西。

合并后,项目评估的标准不再仅仅是科学价值,而是它们与 Gemini 路线图的相关性。论文发表的时间表受到了新的审查。那些为了追求基础问题而加入的研究人员,发现自己被重新导向了商业产品周期。一位资深研究人员在向初创企业媒体 Sifted 描述当时的氛围时说,“一些研究人员对必须遵守领导层的指导方针感到沮丧”,并且“这种压力产生了一种疲惫感”。

哈萨比斯花了十三年时间建立了一个通过给出真诚承诺来吸引研究人员的组织:在一个资源充足的实验室里,拥有在很长的时间跨度内自由探索艰难、重要问题的权利,而没有必须证明其商业相关性的压力。这个承诺并不完全是虚假的——AlphaFold 之所以存在,正是因为他们可以在六年时间里,资助五十人去解决蛋白质结构预测问题,而无需任何商业路线图。ChatGPT 所摧毁的,正是使得兑现这一承诺成为可能的结构性条件。一旦比赛全面展开,每一个没有产品的研究月份,都意味着阵地的丧失。

“我们完蛋了(we're cooked)”这句话并不是某个特定的人在有记录的语境下说的。它弥漫在空气中——这是 AI 研究人员这一代人特有的表达方式,意在说明某些东西已经改变,时间表已经坍塌,局面已经超出了常规管理的范畴。它捕捉到了一种情绪,这种情绪游走于转向大型语言模型的工程师们那种欢快的竞争焦虑,以及那些将整个职业生涯倾注于该问题的研究人员真实的生存恐惧之间——现在,看着 ChatGPT 的用户增长曲线,他们正在直面其背后的含义。

确切地说,哈萨比斯并没有完蛋。他拥有诺贝尔奖,一个新合并的 7600 人的组织,以及背后 Alphabet 的全部资源。但是,他花了最长时间想象的那个未来版本——谨慎的、科学的、类似欧洲核子研究中心的(CERN-like)、唯一的——已经不复存在了。“在我的内心深处,”他在 2026 年告诉《财富》杂志,“我有一种令人备受煎熬的直觉,那就是有一些比商业竞赛重要得多、宏大得多的事情,那就是为人类安全地实现 AGI。”这种煎熬的直觉,是他想象中那个未来的残留物。而商业竞赛,才是眼下正在发生的现实。


第十八章:循序渐进 (Step by Step)

2023年4月20日——恰好在ChatGPT发布五个月后——桑达尔·皮查伊(Sundar Pichai)宣布成立Google DeepMind。这两个花了九年时间相互竞争、重复彼此工作、争夺算力的组织,被合并为一个单一实体,由戴密斯·哈萨比斯(Demis Hassabis)担任首席执行官(CEO)。

合并后的部门大约有7600人。哈萨比斯从管理伦敦一个半自主的研究实验室,变成了领导世界上最庞大的AI组织之一。自Google Brain创立以来就负责组建和领导该团队的杰夫·迪恩(Jeff Dean),成为了谷歌的首席科学家——这是一个享有盛誉的头衔,但在实际操作中,这恰好在AI开发成为科技界最重要战场的关键时刻,将他移出了运营中心。这种组织人事变动,从外界看来像是晋升,但在内部看来却别有深意。

在合并公告发布三周后,即5月10日的Google I/O大会上,哈萨比斯公开宣布了Gemini项目。

愿景与竞赛

哈萨比斯用来描述他试图构建的东西的词是“原生多模态(natively multimodal)”。与GPT-4(从文本模型起步,后来才加上视觉功能)不同,Gemini从底层基础开始就被设计为通过共享网络层来处理文本、图像、音频和视频。哈萨比斯在2023年6月接受《连线》(Wired)杂志采访时给出的比喻精准且发人深省:“从高层次来看,你可以把Gemini看作是结合了类似AlphaGo系统的某些优势,以及大模型惊人的语言能力。”强化学习和树搜索——AlphaGo的核心技术——将赋予Gemini纯语言模型所缺乏的规划和解决问题的能力。

这是他在整个大语言模型(LLM)时代一直坚持的论点:强化学习(RL)和语言建模不是竞争对手,而是互补的,两者的结合是通向真正接近通用智能的必由之路。2022年谈到Gato时他这么说过。现在,在真实的竞争压力下,他再次用它来描述Gemini,而这大大改变了赌注的筹码。

毫无疑问,开发过程是高强度的。数百名来自Brain和DeepMind的工程师被重新分配到这项工作中。谢尔盖·布林(Sergey Brin)——他在ChatGPT发布后重返谷歌,直到2023年1月还在亲自提交代码——依然是Gemini训练的“核心贡献者”。该模型在谷歌的TPU基础设施上进行训练,规模之大需要数以万计的芯片,数据包含了YouTube的字幕转录、跨越所有模态的多样化多模态数据,以及一个过滤受版权保护内容的法律审查流程。哈萨比斯将竞争环境描述为“凶残(ferocious)”,资深员工称其为“他们所见过的最紧张的环境,也许在整个科技行业也是前所未有的”。他每天都要与皮查伊通话。

2023年12月6日

Gemini 1.0于2023年12月6日发布。分为三个层级:Ultra,用于高度复杂的任务;Pro,用于广泛的任务,立即通过英语版的Bard在170个国家推出;以及Nano,用于端侧设备部署,集成到了Pixel 8 Pro智能手机中。

头条的技术声明具有明确的象征意义。Gemini Ultra在MMLU(大规模多任务语言理解)基准测试中达到了 90.0% 的准确率——该测试涵盖了数学、物理、历史、法律、医学和伦理学等57个学科——这使其成为首个在该测试中超越人类专家表现的AI模型。GPT-4的得分为 86.4%90% 的门槛不仅仅是一个基准;这个数字向所有关注此事的人传递了一个信息:在标准化知识测试中,最顶尖的AI与最优秀的人类之间的差距已经消除。

然而,伴随发布会展示的演示视频,却未能像基准测试那样经得起推敲。视频似乎展示了Gemini能实时理解直播的视频和音频——一个画画的孩子、一个被旋转的杯子、一场石头剪刀布的游戏。而在现实中,视频的延迟在剪辑中被缩短了,输出结果被精简了,而且所使用的提示词(prompts)是预先写好的文本输入,并非实时的语音或视频。在石头剪刀布的片段中,实际的提示词包含了一个暗示:“提示:这是一个游戏。”2023年最受赞誉的AI能力展示之一,竟然是摆拍的。

DeepMind最资深的研究员之一奥里奥尔·维尼亚尔斯(Oriol Vinyals)为这段视频进行了辩护:“视频中所有的用户提示和输出都是真实的,只是为了简洁而进行了缩减……我们制作它的是为了启发开发者。”批评者则认为,在“真实的输出、摆拍的演示”与“伪造的输出”之间玩文字游戏掩饰了很多问题。这场争议尚在可控范围内,但它偏偏发生在谷歌最需要证明自己能不走捷径地与OpenAI匹敌的节骨眼上。

AlphaCode 2

在宣布Gemini的同一天,DeepMind发布了关于AlphaCode 2的技术报告:这是一个基于Gemini Pro构建的、在Codeforces编程竞赛中参赛的系统。

于2022年初发布的初代AlphaCode,其表现在竞技程序员中大约处于中位数水平——比大约一半的参赛者要好。而AlphaCode 2的得分达到了 前15%(85th percentile),解决了 43% 的问题,相比之下初代AlphaCode只有 25%。在被评估的十二场竞赛中,它有两场击败了 99.5% 的参与者。

在Codeforces的等级分类中(新手Newbie、学徒Pupil、专家Specialist、高级专家Expert、候选大师Candidate Master、大师Master及以上),AlphaCode 2将自己定位在高级专家和候选大师之间,跻身严肃的竞技程序员之列。比原始百分位数更令人惊叹的是其样本效率:AlphaCode 2针对每个问题只需要生成大约一百个解决方案,就能达到初代AlphaCode需要一百万次尝试才能达到的水平。该系统不仅仅是进步了。在相同的采样预算内,它寻找正确解决方案的效率提高了一万倍。

博士生的四年

最能清晰体现本章标题(循序渐进)的研究成果,并非来自竞争激烈的产品端,而是来自科学端。2024年1月17日发表在《自然》(Nature)杂志上的AlphaGeometry,解决了近期30道国际数学奥林匹克(IMO)几何题中的25道。人类IMO金牌得主平均能解决25.9道。此前AI的最高水平是解决10道。而GPT-4在独立测试中,一道都没解出来。

处于这一成果核心的研究员是郑明兆(Trieu H. Trinh),他是一位越南计算机科学家,毕业于胡志明市科学大学,曾加入加州的Google Brain,随后在2019年离职前往纽约大学科朗数学研究所攻读博士学位。他的导师何贺(He He)后来形容他充满了“顽强与奉献精神”。郑决定在应对数学推理这一宏大挑战之前,先将IMO几何作为他口中的“一个稍微偏向玩具性质的例子”来练手。他为此投入了四年的时间。

他构建的架构是一种特定类型的分步推理(step-by-step reasoning)。语言模型负责创造性的部分——提出辅助作图,即几何证明常常需要的、人类凭借直觉发现的新点、线、圆。符号演绎引擎负责严谨的部分——验证每一个逻辑步骤,延伸证明链条,确认语言模型提出的作图确实能推导出有用的结果。当符号引擎卡住时,它会调用语言模型。语言模型提出一种作图方案。符号引擎进行验证。这个循环不断持续,直到得出证明。

这不是近似计算或模式匹配。输出结果是机器可验证且人类可读的——一系列可以对照欧几里得几何公理进行检验的推理步骤序列。数学家、数学竞赛教练埃文·陈(Evan Chen)说:“AlphaGeometry的输出令人印象深刻,因为它既可验证又很干净……它使用了带有角度和相似三角形的经典几何规则,就和学生们做的一样。”

训练数据完全是合成的:十亿个随机的几何图形,符号推理从中提取了一亿个独特的几何证明样例。没有人类手写的证明。没有人类的演示。语言模型是通过观察几何本身来学习提出作图方案的,而不是被告知优秀的几何长什么样。

郑为期四年的项目——在组织的其余部分转向Gemini、在ChatGPT发布、在战时状态降临之际悄然进行——正是DeepMind成立之初所致力于追求的那种长远周期的基础研究。它登上了《自然》杂志的论文队列,而此时它周围的组织正宣称此类工作将被降低优先级。这个时机本身就是一种无声的宣言。

一百万个Token

2024年2月15日,谷歌宣布推出Gemini 1.5 Pro。最引人注目的数字是一百万个Token(词元)——这是它的上下文窗口,意味着模型可以同时保持关注的信息量。在实际应用中,这相当于:一小时的视频、十一小时的音频、三万行代码,或者大约七十万字的文本。所有这些信息同时存在,全在上下文之中,全部可供模型进行推理,而无需将信息压缩或概括掉。

GPT-4 Turbo的上下文窗口是12.8万个Token。Gemini 1.5 Pro几乎是它的八倍。

该系统建立在混合专家(Mixture-of-Experts, MoE)架构之上——在这种设计中,针对不同类型的输入会激活不同的“专家”子网络,使得模型能以极小部分的计算成本达到大得多的系统的能力。Gemini 1.5 Pro在大多数基准测试中匹配或超越了Gemini 1.0 Ultra,同时在训练和运行上所需的算力大幅减少。

谷歌通过向1.5 Pro输入一部完整的44分钟无声电影,并要求它描述情节要点、角色动作以及散落在影片中的微小细节,来展示其长上下文能力。“大海捞针”检索测试——在海量文本中寻找嵌入的单条信息——显示它在100万个Token下具有近乎完美的召回率,在实验性测试中扩展到1000万个Token时也仅略微下降至 99.2%

现任首席科学家的杰夫·迪恩在公开场合反复宣介这些成果。其传达的信息很明确:这不是一个增加了更多功能的GPT-4。这是对能力需求方向上的一次截然不同的架构押注。OpenAI在推高参数量,而Google DeepMind则在推高上下文长度和计算效率。至于这种押注能否转化为用户的青睐,那是另一个问题了。

“循序渐进”的含义

本章的标题同时捕捉到了几层含义。

Google DeepMind的组织重构是一个循序渐进的过程——并不存在某一个瞬间这两个组织就融为了一体,文化战争就此结束,研究与产品之间的张力就此消解。那些为了从事基础科学而加入的研究人员发现项目被重新定向了;而那些来自Brain的人则发现新同事对他们那些山景城(Mountain View)式的本能抱有疑心。整合仍在以一种被皮查伊4月20日的声明所掩盖的方式进行着。

DeepMind目前正在推进的技术路径——AlphaGeometry的神经符号循环(neuro-symbolic loop)、SELF-DISCOVER的推理模块、思维链(chain-of-thought)解码——字面意义上就是分步进行的。所有这些系统共通的见解是相同的:如果AI能够将问题分解为中间步骤,验证每一步,并在步骤失败时进行修改,那么它就不需要通过单次前向传递(single forward pass)就生成正确答案。这种按顺序推理并伴随验证的能力,正是区分真正的解决问题能力与盲目自信猜测的关键。

而哈萨比斯自己公开陈述的关于AGI的哲学,也是循序渐进的。自AlphaGo以来,他一直都在说:“还需要一两个重大突破”,一种Transformer级别或AlphaGo级别的洞见,按顺序应用。不是单一的涌现时刻。不是突然跨过某道门槛。而是一系列具体的进步,每一个都建立在前一个的基础之上,直到这种积累达成一种绝对意义上的新事物。

AlphaGeometry是这些步骤中的一步。Gemini 1.5 Pro的长上下文窗口是一步。90% 的MMLU得分也是一步。下一步是什么,以及还有多少步要走,马拉比在章节的结尾留下了这个悬念——理应悬而未决,因为无人知晓。


第十九章:卷土重来与未来展望

2023 年 9 月,当 Gemini 团队正朝着 12 月的发布日期冲刺,而合并后的文化冲突正在横跨两大洲的实验室中自行化解时,一篇更安静的论文发表在了《科学》(Science)杂志上。它描述了一个名为 AlphaMissense 的系统。

人类基因组包含大约 7100 万个可能的错义变异(missense variants)——单字母的 DNA 替换,它会导致蛋白质中产生不同的氨基酸,这可能会破坏功能、引发疾病,也可能什么影响也没有。在这 7100 万个变异中,科学家通过实验鉴定出特征的只有大约 0.1%。剩下的 99.9% 都是医学上的未解之谜:当一名携带罕见基因变异的患者就诊时,临床医生通常没有依据来判断该变异是致病原因还是无辜的旁观者。

AlphaMissense 处理了所有 7100 万个变异。它对其中的 89% 进行了分类——57% 为可能良性,32% 为可能致病。这并非临床诊断。它是一个概率目录,一个以前不存在的临床调查起点。这些预测结果被免费提供给商业和科学用途。该模型代码被开源,并被整合到全球基因组学基础设施中。对于罕见病诊断——患者可能携带未分类的变异,且没有其重要性的基准参考——它是那种可以把耗时数月的实验室工作缩短为一个下午就改变临床检查结果的工具。

AlphaMissense 获得的关注度仅仅是三个月后 Gemini 所获关注的一小部分。这种关注度的分配——一个在商业上无关紧要的科学突破只获得了平静的认可,而一个聊天机器人的发布却登上了头版头条——准确捕捉到了本章所描述时期的某些真实情况。

Gemini 的卷土重来

2023 年 12 月 Gemini 的最初发布被外界广泛认为令人失望。Gemini Ultra 在基准测试中追平了 GPT-4,但并未明显超越它。摆拍演示视频的争议破坏了营销效果。基准测试中的声明与早期用户手中 Gemini Pro 的实际表现之间的差距肉眼可见。

它的卷土重来是分阶段发生的。

2024 年 2 月宣布的 Gemini 1.5 Pro 确立了真正的结构性优势:一百万个 Token 的上下文窗口(后来扩展到两百万),而 GPT-4 Turbo 只有 12.8 万个 Token。在规模上,这不是一个微小的改进——它意味着 Gemini 1.5 Pro 可以同时将长达一小时的视频、十一小时的音频或三万行代码保存在活跃的注意力中,无需压缩或概括。在检索基准测试中——即衡量模型能否在海量上下文中定位特定信息的“大海捞针”测试——它在长达一百万个 Token 的范围内达到了 99% 的准确率。这是一项对实际应用(如代码库、法律文件、超长研究背景、多媒体分析)具有重要意义的技术领先优势。

随后在 2025 年 3 月,Gemini 2.5 Pro 发布,并在 Chatbot Arena 排行榜(由伯克利和 LMSYS 研究人员独立运行的人类偏好基准测试)上首次登顶,创下了该排行榜历史上最大的分数跃升记录。它在数学、创意写作、指令遵循、长查询处理和多轮对话方面全面领先。在研究生水平的科学推理(GPQA Diamond)上,它获得了 84% 的分数。在数学竞赛题(AIME 2025)上,它与 OpenAI 最好的推理模型打成了平手,差距不到百分之一。在多模态基准测试上,它处于行业领先地位。

在竞技编程(SWE-bench)中,它以 63.8% 的成绩落后于 Claude 3.7 Sonnet 的 70.3%。卷土重来是真实的,但前沿技术的更新速度非常快——到了 2025 年中,Claude 4 和 GPT-5 的变体再次夺回了编程的领先地位。Gemini 的发展轨迹所展示的并不是永久的统治地位,而是真正的竞争存在感:一个在 2023 年初看起来技不如人的组织,在两年后,正在生产出任何理智的观察者都无法忽视的模型。

AlphaFold 3

2024 年 5 月,DeepMind 和 Isomorphic Labs 在《自然》杂志上发表了 AlphaFold 3。最初的 AlphaFold 2 解决了蛋白质结构预测问题。AlphaFold 3 将同样的框架扩展到了预测所有主要生物分子的结构和相互作用:蛋白质、DNA、RNA、小分子药物、抗体,以及控制细胞功能的化学修饰。最关键的扩展是类药物小分子——这个类别包含了大多数药物,也是 AlphaFold 2 无法处理的类别。

准确率的提升是巨大的。在 PoseBusters 基准测试中——衡量系统预测药物分子与其蛋白质靶点结合位置的准确度——AlphaFold 3 比现有的最佳方法准确率至少高出 50%,并被认为是首个在此任务上超越基于物理学的分子对接(docking)工具的 AI 系统。对于抗体-抗原相互作用、蛋白质-核酸结合、控制蛋白质功能的修饰:在每一个类别中,AlphaFold 3 都大幅超越了之前的最先进水平。

该架构使用扩散网络(diffusion network)取代了 AlphaFold 2 的结构模块——这与驱动 AI 图像生成的方法相同,只是被改造用于生成分子几何结构而非像素阵列。结果是,该系统不仅能生成最可能的结构,还能生成可能结构的分布情况,从而捕捉到许多在生物学和药学上具有重要意义的分子所表现出的灵活性。

争议和以前一样,但更加尖锐。AlphaFold 2 曾完全开源发布——这是诺贝尔委员会所引用的,也是 190 个国家的三百万研究人员所使用的。而 AlphaFold 3 发布时没有公开代码,只能通过一个有额度限制的网络服务器访问,并且该服务器明确屏蔽了涉及新型类药物分子的预测。一千多名科学家联名签署了抗议信。这篇论文在同行评议者未能看到代码的情况下就发表在了《自然》杂志上。

DeepMind 的 AI 科学负责人普什米特·科利(Pushmeet Kohli)直白地陈述了立场:实验室必须在科学的可及性与“不损害 Isomorphic 追求商业药物发现的能力”之间“取得平衡”。六个月后——也就是其开源前身获得诺贝尔奖的一个月后——代码被发布,但仅供非商业性学术使用。模型权重的获取需要通过申请流程。商业限制依然存在。

这一系列事件精确展示了马拉比在整本书中所记录的张力。诺贝尔奖推崇的是让 AlphaFold 2 具有变革意义的价值观:公开发表、自由访问、科学作为一种公共产品。而 AlphaFold 3 则在 DeepMind 如今已成为的商业组织的价值观下运作:科学作为竞争优势,精心控制访问权限以保护 Isomorphic 的药物发现业务。

药物发现的赌注

Isomorphic Labs,这家为了将 DeepMind 的生物学 AI 商业化而于 2021 年成立的 Alphabet 衍生公司,在 2024 年 1 月迎来了其最重要的验证时刻。在同时宣布的两笔交易中,它与礼来公司(Eli Lilly,预付款 4500 万美元,基于业绩的里程碑付款高达 17 亿美元)和诺华公司(Novartis,预付款 3750 万美元,里程碑付款高达 12 亿美元)签署了研究合作伙伴关系。潜在总价值:近 30 亿美元。

这些不是披着交易外衣的公关新闻稿。在任何药物进入临床试验之前,礼来和诺华都在支付真金白银作为预付款——以换取对特定(未公开)靶点使用 Isomorphic 的 AI 驱动分子设计平台的权利。2025 年初,与诺华的合作得到扩展。2025 年 3 月,Thrive Capital 领投了 6 亿美元的 A 轮融资——这是 Isomorphic 获得的首笔外部资本,也是来自科技界最严谨的投资者之一对该理论的外部验证。

到 2025 年中,Isomorphic 的总裁形容公司“非常接近”人体临床试验。重点领域是肿瘤学和免疫学。首次一期(Phase I)试验的预计时间表最快是 2026 年底。如果这些试验能顺利进入二期和三期,按照传统的药物开发时间表,一款商业上成功的 AI 设计药物距离问世仍有十年的时间——而传统的开发时间表出了名的难以预测,进入一期试验的候选药物中只有大约 10% 最终能获批。

哈萨比斯曾描述过他的目标:“一个价值千亿美元以上的 AI 药物发现业务。”这个愿景足够具体,可以作为衡量标准。概念验证——一种进入人体临床试验的 AI 设计分子——尚未到来。

AGI 对哈萨比斯意味着什么

当被要求定义 AGI 时,哈萨比斯始终设定的门槛与该领域的大多数其他人不同。他指的不是一个能通过律师资格考试或在 MMLU 上得分超过人类专家的系统。他指的是一个能够进行真正发明的系统:在物理学中提出新理论,提出新的研究方向,设计人类从未想过要进行的原创性实验。

“我们还没有能够进行那种创造力的系统,”他曾说过。这种区别很重要,因为它将“解决已知猜想”和“生成新猜想”区分开来——后者需要的不仅仅是能力,还需要一种目前系统并未展现出来的科学好奇心。

他说目前仍然缺少的东西包括:分层规划、长期记忆、假设生成,以及一个真正的世界模型——一种对物理因果关系的直觉理解,它允许 AI 对后果进行推理,而不仅仅是预测输出。他对自主科学 AI 提出了两步走的要求:首先,一个理解物理现实的世界模型;其次,自动化实验——提出问题、设计测试、运行测试并进行迭代的能力。当这两个组件连接成一个闭环时,系统原则上就可以进行独立的科学研究。这仍是未来的目标。

他自 2024 年以来一致声明的时间表是:到 2030 年实现 AGI 的几率为 50%,并将“5 到 10 年”作为他公开预测的范围。这使他处于 AGI 预测的主流阵营,而非极端激进派。他还一贯表示,仅靠规模扩展无法填补剩余的差距。“我的猜测是还需要一两个重大突破——我说的是 Transformer 级别或 AlphaGo 级别的突破”——这将是当前大语言模型仍在苦苦挣扎的推理和规划组件所必需的。

诚实的评估

到 2026 年初,马拉比的这本书可以列出一份资产负债表(做一个总结算)了。

在科学方面,结论是明确无误的。AlphaFold 2 赢得了诺贝尔奖,并为 190 个国家的三百万研究人员改变了结构生物学。AlphaMissense 为疾病研究对 7100 万个基因变异进行了目录分类。AlphaFold 3 将分子预测扩展到了药物相互作用。AlphaGeometry 在 IMO 几何题上达到了金牌水平。AlphaCode 2 在竞技程序员中达到了前 15%(85th percentile)的水平。这些成果代表了一个连贯的科学 AI 计划,没有其他任何组织能够在同等深度上复制。

在商业方面,情况则更为复杂。进入 2026 年,OpenAI 的年化收入超过了 200 亿美元。Anthropic 的收入正在接近 40 亿美元。Gemini 7.5 亿的月活跃用户规模可与 ChatGPT 媲美,但谷歌对 Gemini 的变现是通过一个生态系统(搜索、云、Android、Workspace)进行的,而不是作为一个独立的产品。Isomorphic 的药物发现理论最快也要到 2026 年底才能在人体试验中得到概念验证,而药物开发的商业成果需要长达十年的时间周期。

哈萨比斯有一个理论,解释了为什么直到现在科学遗产对这场竞赛依然重要。优先考虑规模扩展的方法——更大的模型、更多的算力、更多的数据——已经产生了真正令人印象深刻的语言模型。但他相信,下一批突破,即那些能填补当前 AI 与真正 AGI 之间剩余差距的突破,将需要同样特定领域的架构洞见,就像 AlphaGo Zero、AlphaFold 2 和 AlphaGeometry 各自所需要的那样。你无法纯靠“大力出奇迹”的规模扩展来获得一个世界模型。你也无法单靠迭代来自动生成科学假设。在未来的某个时刻——如果他的理论是正确的——那个对“智能到底需要什么”有着最深刻理解的实验室,将拥有一种单纯靠积累参数无法轻易复制的优势。

这一理论尚未得到证实。它可能是错的。但贯穿全书的根本问题——哈萨比斯将基础研究置于产品优先 AI 之上的赌注最终是否会被证明是正确的——到这里仍然是开放的,而这正是它应有的归宿。

尾声:图灵的捍卫者

1950 年 10 月,艾伦·图灵在《心智》(Mind)杂志上发表了一篇论文,提出了一个极其根本但至今仍未得到解答的问题。“机器能思考吗?”他以此开篇——然后,带着他特有的风格,在这个问题僵化成无法解答的哲学之前将其消解了。他没有纠缠于意识和定义,而是提出了一个测试:如果一个通过文本进行交流的裁判无法可靠地区分机器和人类,那么机器是否“真的”在思考这个问题在实际中就变得无关紧要了。

图灵做出了两个预测。他写道,在五十年内,计算机将能够很好地进行模仿游戏,以至于一个普通的询问者在经过五分钟的提问后,能正确识别出它们的概率不会超过 70%。而到本世纪末,“词语的使用和受过教育的公众的普遍共识将会发生如此大的改变,以至于人们可以谈论机器思考,而不必预料到会遭到反驳。”

这两个预测都已被证实。第一个被 GPT-4 和 Gemini 所证实;第二个则被 2024 年出版的每一份报纸所证实。

但这篇论文中最具预见性的部分并不是模仿游戏。而是临近结尾处一个名为“学习机器”(Learning Machines)的小节。图灵建议不要试图直接设计一个成人的心智——这是一项极其复杂的任务——而是构建一个简单的“儿童机器”,并通过奖励和惩罚来教育它,模仿自然的发展过程。他描述了由逻辑组件构成的网络,其属性可以被“训练”成所需的功能。在 1950 年,他所描述的,正是三十年后才出现的深度学习和强化学习。

当 AlphaGo Zero 仅仅通过自我博弈就学会了下围棋——从随机走法开始,没有任何人类知识,在几天内发现了人类在这项游戏五千年历史中从未发现过的策略时——在最直接的技术意义上,这就是图灵的“儿童机器”长大成人的实现。图灵想象了它。哈萨比斯建造了它。

桌子在尖叫

深夜,在伦敦的办公桌前,哈萨比斯有时会停下工作,感受到他所描述的那种“现实在要求他予以关注”的感觉。他直接告诉了马拉比——边说边用手掌敲击着桌子:“这张桌子,塞巴斯蒂安!它凭什么是坚固的?计算机不过是沙子和铜的碎屑。为什么这些东西结合在一起就能做任何事情?”

这不是科学家的辞藻华丽。它是背后驱动一切的情感。哈萨比斯曾将做科学描述为“阅读上帝的心智”——在某种意义上,这是他的宗教,是隐藏在野心、竞争、诺贝尔奖和商业压力之下的核心事物。宇宙的结构是以可以被理解的方式构建的,这些结构就是信息,而智能正是将信息处理成理解的工具。如果你构建了足够的智能,原则上,你就可以理解一切。他想要的毫不逊色于此:一台无所不知的机器,一个用来弥合人类意识与现实结构本身之间差距的工具。

这就是马拉比讲述的故事既令人兴奋又让人头晕目眩的原因。它的核心不是一个科技故事。它讲述的是一个人,注视着存在的奇异性,并带着极其严肃的态度决定对此做点什么的故事。

奥本海默的框架

马拉比最明确的历史类比出现在书的结尾。J. 罗伯特·奥本海默制造了原子弹。他明白自己在制造什么。在“三位一体”(Trinity)核试验之后,他向战争部长签署了一封表达厌恶的信。他作证反对氢弹计划。他因此在 1954 年被剥夺了安全许可,被驱逐出他所制造武器的政策圈。他所建造的那个东西在没有他的情况下继续发展。

关于制造原子弹的决定,奥本海默曾说过:“当你看到一些在技术上极其甜美(technically sweet)的东西时,你就会去推进并完成它,只有在你取得了技术上的成功之后,你才会去争论该拿它怎么办。”这句话在马拉比对哈萨比斯的叙述中回荡。杰弗里·辛顿(Geoffrey Hinton)也表达了同样的逻辑,他说“发现的快感是如此之大,以至于即使你非常担心它的影响,你也无法抗拒。”这个技术上极其甜美的问题并非个人的失败。它是一种文明的境况。

马拉比对哈萨比斯的疑问并非是指责。它带有悲剧色彩:“他想行善,但他能行善吗?”哈萨比斯明白其中的危险。他签署了关于灭绝风险的声明。他称自己的末日概率(p(doom))是不容忽视的。他谈到,有安全意识的组织必须留在竞赛中,并以此作为留在其中的理由。他说过,如果退出,他并不能推动安全的进步。这可能是真的。但无论这是否真实,这也恰恰是处于这个位置上的任何有能力的行动者都必须说的话。

马里奥计划(Project Mario)——为 AGI 发展创建独立治理结构的三年努力——完全失败了。2014 年收购时承诺的伦理委员会从未发挥过作用。AlphaFold 3 的开源限制表明,当商业压力与科学价值相遇时,商业压力占据了上风。哈萨比斯告诉马拉比,安全问题是“可以解决的(soluble)”。但它同样无法保证一定会被解决。

奥本海默无法控制他的造物。也许,正如马拉比所写,“这就是历史上所有伟大科学家的特权与宿命。”

留言簿

2024 年 12 月,在斯德哥尔摩的诺贝尔基金会,哈萨比斯在获奖者留言簿上签了名——这本留言簿自 1952 年开始启用,上面留有每一个站在那座建筑里接受科学界最高荣誉的人的名字。爱因斯坦,1921 年。沃森和克里克,1962 年。费曼,1965 年。

“他们都在那里,都是我的英雄,”哈萨比斯告诉马拉比。“甚至只是谈论这件事,我都会起鸡皮疙瘩。”

这一刻的特殊分量在于:哈萨比斯是看着《寻找双螺旋》(The Race for the Double Helix)长大的。在青少年时期,他读过图灵的事迹。作为学生,他研究过费曼。这些人并不是科学史上遥远的人物——他们是他穷尽一生试图去拓展他们对世界理解的人。而现在,他的名字也位列其中,在那本位于斯德哥尔摩的簿册上,因为他解决了一个在那些人活着时还不存在的问题。

诺贝尔奖表彰了 AlphaFold——一个通过从进化数据中学习模式来预测蛋白质结构的系统,它证明了这样一个论点:将智能应用于生物学可以使科学加速几十年。同样的论点,扩展到每一个科学领域,正是哈萨比斯对未来信念的一切前提。

末日时钟

2026 年 1 月 27 日,《原子科学家公报》(Bulletin of the Atomic Scientists)将“末日时钟”(Doomsday Clock)拨到了距离午夜 85 秒——这是其 79 年历史上距离午夜最近的一次。在时钟存在的历史上,人工智能首次被明确列为推动拨表的共同驱动因素之一,与核武器和气候变化并列。

单独维护的 AI 安全时钟在 2026 年初指向了距离午夜 18 分钟——在十二个月内拨快了九分钟,其中最大的一次单次跳跃是由自主 AI 智能体和五角大楼宣布打算成为“AI 优先的作战部队”所驱动的。

2026 年 2 月发表的一项针对 59 名 AI 安全研究人员的调查报告显示,p(doom)——即在 2100 年前人类灭绝或永久失去控制权的概率——的中位数为 25%。平均值为 34%。百分之七十三的人预计 AGI 会在 2035 年前到来。研究人员表示,制约安全工作的核心因素是人才,而不是资金。

哈萨比斯曾说安全问题是可以解决的。他也曾说,这场竞赛不是任何个人或组织能够阻止的。这两件事同时是真实的,并且相互之间无法化解。那些可能弥合“原则上可解决”和“实践中已解决”之间差距的国际治理框架,目前还不存在能够足以应对该问题的形式。那些基于安全理由建立的组织,正是加速能力发展的同一批组织。构建最强大系统的实验室,正是那些主张人们应该信任它们来处理后果的实验室。

图灵未竟之言

图灵 1950 年的论文以一种不同寻常的谦逊口吻结束,对于一个自信通常是其特色而非缺陷的人来说,这实属罕见。“我们只能看清前方很短的距离,”他写道,“但我们能看到那里有大量需要去做的事情。”

对于这个故事目前所处的阶段,这是一个恰当的基调。哈萨比斯并不完全是奥本海默——这个类比具有启发性,但不精确,而且马拉比小心翼翼地将其作为一个问题而不是定论来对待。自图灵发表论文以来的几十年里,所建立起来的东西是非凡的,且有目共睹的:一个通过与自己博弈掌握了围棋,直到超越每一个人类的人工系统;一个在两年内解决了让现存在世最优秀的结构生物学家五十年的潜心努力都束手无策的问题的系统;一个能够通过律师资格考试、撰写连贯论点、模拟蛋白质相互作用、对基因突变进行分类、并以达到竞技程序员前 15% (85th percentile)水平编写代码的系统。这台“儿童机器”已经长大了。

接下来会发生什么——通往 AGI 的剩余步骤是两步还是二十步,安全问题是否能在 AI 能力使其解决方案变得毫无意义之前得到解决,哈萨比斯关于科学严谨性与 AGI 野心能够共存的赌注是否会被证明是正确的——所有这些,从此时此地都无法看清。这本书也并不假装能够看清。

相反,马拉比提供的是一幅处于这个特定历史时刻中心的人物的肖像:一个来自伦敦的国际象棋神童,痴迷于心智如何运作的问题,在二十二岁时拒绝了电子游戏产业,因为那不是他想解决的问题;他花了一生的职业生涯构建了让创造者感到惊讶的系统;他赢得了诺贝尔奖,然后立刻不得不重组他的机构,去参加一场他本希望能避免的竞赛;他在深夜坐在办公室里,感觉现实正在从桌子表面向他尖叫;他相信宇宙是由信息构成的,而智能正是将这些信息转化为理解的工具。

在马拉比的框架中,他是图灵的捍卫者——那个认真对待“儿童机器”的人,他构建了它,用围棋、蛋白质、几何和语言来测试它,看着它超越人类已经学到的一切;现在,他站在未来边缘的时刻,同时握着奖章和责任,却并不完全确定两者能否共存。

图灵说我们只能看清前方很短的距离。这一点并没有改变。仍然有大量需要去做的事情。