跳到主要内容

61 篇博文 含有标签「ai」

查看所有标签

为什么 A/B 测试对 AI 功能失效(以及应该改用什么)

· 阅读需 10 分钟
Tian Pan
Software Engineer

你的 AI 功能上线了。A/B 测试运行了两周。处理组看起来更好——参与度提升 4%,p 值低于 0.05。你将其全量发布。

六周后,收益消失了。参与度回到了原点,甚至更低。你的实验说了一件事;现实说了另一件事。

这不是偶发案例,而是将标准双样本 A/B 测试应用于 AI 功能时的默认结果——你没有考虑这种方法论中内嵌假设被打破的方式。这些失败模式是结构性的,而非统计性的——你可以按教科书完美地运行实验,却仍然得到错误答案。

AI 代码审查陷阱:为什么更快的审查正在让你的代码库变得更糟

· 阅读需 11 分钟
Tian Pan
Software Engineer

你的团队比以往任何时候都能发布更多代码。PR 速度提升了,周期时间缩短了,积压也在减少。在管理者看得到的每一块仪表板上,一切都看起来很好。然而,每个 PR 对应的事故数量正悄悄地以每年 23.5% 的速度攀升。

这就是 AI 代码审查的悖论。AI 工具让工程师写代码更快,审查代码也更快——但最关键的缺陷正以比以前更高的比率漏过审查。这个悖论的两面相互叠加,而大多数团队并没有在衡量正确的指标来察觉这一点。

AI 融入 SRE 循环:哪些有效、哪些失效,以及边界在哪里

· 阅读需 12 分钟
Tian Pan
Software Engineer

大多数线上故障的失败,并非因为缺乏工具,而是因为值班工程师在最需要的时刻无法快速获得足够的上下文。凌晨三点,工程师被一墙的触发告警惊醒,先花 20 分钟拼凑出到底哪里出了问题,再花 20 分钟判断该用哪份运维手册,等到真正开始执行修复时,故障已经持续了将近一个小时。而实际的修复动作可能只需要 5 分钟。

AI 能够将这个上下文收集窗口从 40 分钟压缩到 2 分钟以内。这才是真正摆在桌面上的价值。但"LLM 帮助值班工程师"并不是一个单一的产品决策,而是一系列决策的叠加,每一层都有其独特的失效模式,而某些失效模式的后果,远比客服聊天机器人幻觉严重得多。

LLM 系统的基于属性的测试:即便输出多变也需遵循的不变量

· 阅读需 14 分钟
Tian Pan
Software Engineer

一家金融科技公司的产品团队发布了一款基于大语言模型 (LLM) 的文档摘要生成器。他们的评估数据集包含 200 个经过人工筛选并附带人工评分的示例,质量得分达到 87%。在生产环境中,当用户上传短备忘录时,系统偶尔会返回比原始文档更长的摘要。评估数据集中没有任何篇幅少于 300 字的备忘录。而“对于摘要任务,输出长度 ≤ 输入长度”这一属性从未被测试过。直到一位客户截下了这个荒唐的界面并将其发布到网上,才有人察觉到这个问题。

这就是属性测试 (Property-Based Testing, PBT) 所填补的核心空白。评估数据集衡量的是你“想到的”测试场景中的准确性。而属性测试衡量的则是,在所有可能发生的情况中,你的系统是否始终遵守了预定义的契约。

无限机器:戴密斯·哈萨比斯如何缔造 DeepMind 并追寻 AGI

· 阅读需 185 分钟
Tian Pan
Software Engineer

第一章:甜蜜 (The Sweetness)

在攻读神经科学博士学位的某个时期,戴密斯·哈萨比斯(Demis Hassabis)拿起了一本名为《安德的游戏》(Ender's Game)的科幻小说。它讲述了一个身材矮小的天才男孩被送往空间站,经历了极端的心理测试,并被要求肩负起拯救人类生存重任的故事。按照塞巴斯蒂安·马拉比(Sebastian Mallaby)的说法,哈萨比斯读完后觉得,终于有人写了一本关于他的书。

这则轶事——一半迷人,一半令人心惊——为马拉比所著的《无限机器》(企鹅出版社,2026 年 3 月出版)奠定了基调。这是一部关于哈萨比斯及其缔造的公司 DeepMind 的宏大传记。这本书讲述了一个人试图解答他所谓宇宙“尖叫的谜团”的一生:为什么会有事物存在?意识是如何产生的?能否制造出一台能够理解这一切的机器?哈萨比斯的答案——带着他标志性的毫不谦虚——是肯定的。而且,他打算在有生之年,亲自把它造出来。

奥本海默之问

马拉比是美国外交关系委员会(Council on Foreign Relations)的高级研究员和前《金融时报》记者。他花了三年时间与哈萨比斯进行定期对话,并采访了数百位同事、竞争对手和批评者。由此描绘出的人物肖像发人深省且充满赞赏,但书中的框架始终没有让读者忘记它所处的阴影。

全书的核心隐喻是罗伯特·奥本海默(Robert Oppenheimer)。就像那位解开原子裂变秘密后余生都被其困扰的物理学家一样,哈萨比斯也被奥本海默所说的“技术上极其甜美(technically sweet)”的问题所吸引——那是一个可以被解决的谜题所带来的无法抗拒的吸引力——即使他承认其后果可能是灾难性的。马拉比并没有试图解决这种张力,它正是整本书的脊梁。

哈萨比斯于 1976 年出生在伦敦北部,父亲是希腊裔塞浦路斯人,母亲是新加坡华裔,家境普通。他在 13 岁时就成为了国际象棋大师。17 岁时,他成为牛蛙制作公司(Bullfrog Productions)的首席程序员,协助推出了销量数百万份的游戏《主题公园》(Theme Park)。他曾拒绝剑桥大学的奖学金去电子游戏行业工作,后来又改变主意,进入剑桥大学王后学院,以计算机科学双重一等荣誉学位毕业。之后他联合创办了一家游戏工作室,目睹其倒闭,最终在三十岁出头时,在伦敦大学学院(UCL)获得了神经科学博士学位。在那里,他发表了关于海马体在记忆和想象中作用的里程碑式研究。

在任何阶段,他都没有选择走捷径。

这本书在讲什么

《无限机器》按时间顺序构建叙事,同时也兼作一部现代 AI 的历史。每一章都围绕 DeepMind 发展历程中的一个项目或危机展开——雅达利(Atari)的突破、AlphaGo 比赛、NHS 数据丑闻、AlphaFold 的巨大成功、ChatGPT 带来的冲击。但每一章同时也揭示了更宏大的命题:科学理想主义如何在一场 6.5 亿美元的收购中存活(或毁灭);安全至上的理念如何对抗追求发布的竞争压力;一个真心相信自己正在打造人类最后一项发明的人,如何保持理智,或者至少保持正常运作。

马拉比仅对哈萨比斯本人就进行了超过 30 小时的采访,这种近距离接触的成果显而易见。书中充满了丰富的细节——用扑克牌局作为契机招募联合创始人穆斯塔法·苏莱曼(Mustafa Suleyman),在李世石比赛期间的午夜通话,哈萨比斯领悟到(比他应该意识到的时间更晚)Transformer 将改变一切的确切时刻——这些都只能源于对传主的长期贴近。

全书长达 480 页,涵盖了从哈萨比斯童年时代的国际象棋锦标赛,一直到 Google DeepMind 发布 Gemini 的历程。接下来的摘要将详细梳理这一脉络。但每一章最终都会回到引言中提出的同一个问题:一个确信自己正在做人类历史上最重要事情的人,能否被信任也会明智地去完成它?

马拉比没有给出确切的答案。哈萨比斯自己也还没有。


第二章:深刻的哲学问题

要理解戴密斯·哈萨比斯为什么会打造他所打造的一切,马拉比从大多数科技传记都会跳过的一个问题开始:这个人究竟对现实的本质有怎样的信仰?

在哈萨比斯身上,这个答案不同寻常到值得认真对待。他并不认为智能是一种产品,甚至不认为它主要是一种工具。他认为智能是解开更基本问题的钥匙——一种解读他所谓“宇宙深层奥秘”的方式。对他而言,科学接近于一种宗教修行。“做科学,”他曾说,“就像在阅读上帝的旨意。理解宇宙深处的奥秘就是我的宗教。”

这不是一句随便说说的话。它解释了随后每一个决定的具体轮廓。

本质皆信息(Information All the Way Down)

哈萨比斯的哲学基础建立在一个物理学家经常争论、但技术专家极少涉足的观点上:信息比物质或能量更基础。这不是隐喻,而是一个字面意义上的断言。在这种观点下,宇宙是一个信息系统。夸克、神经元和蛋白质链在某种层面上,都是信息基底中的模式。如果这是真的,那么一台足够强大的信息处理机器就不仅仅是一个有用的工具。它是理解宇宙到底是什么的最直接途径。

这就是为什么当他在深夜沉思时,会形容现实在向他“尖叫”。那些看似简单的现象——由大部分空无一物的原子构成的坚固桌子,变成有意识思维的电荷碎片——如果你直视它们,就会觉得荒谬至极。怎么会有人对这些问题感觉不到迫切呢?绝大多数人没有这种感觉,这让哈萨比斯真心感到困惑。

这种世界观以一种特定的方式将他与科技界的主流区分开来。大多数 AI 创业者谈论的是改变行业或加速经济增长。而哈萨比斯谈论的是理解意识的本质和生命的起源。他希望像物理学家使用粒子加速器那样使用 AGI——作为探索现实本身的仪器。商业应用是真实存在的,也受欢迎。但那不是他每天早上醒来的动力。

国际象棋教育

马拉比将哈萨比斯思维方式的起源追溯到棋盘。他 4 岁时通过看父亲和叔叔下棋学会了规则;13 岁时,他的 Elo 等级分达到了 2300,获得了大师资格。他曾担任英格兰青年队队长,无论以何种标准衡量,都是当时世界上最强的年轻棋手之一。

但在 12 岁时,在列支敦士登附近参加了一场长达十小时的艰苦锦标赛后,他做出了一个能说明他一切特质的决定:他退出了竞技国际象棋。不是因为他在输——他其实在赢。而是他得出结论,将非凡的能力倾注在一项棋盘游戏上是一种浪费。棋盘是训练场,不是终点。

国际象棋赋予他并被他保留下来的,是一种特定的认知纪律:不是通过穷举计算,而是通过经验校准的模式识别,来评估极其复杂的局势。优秀的棋手无法计算所有的路线;可能性太多了。他们会培养出一种直觉,判断哪些局势有希望,哪些没有——这些直觉可以通过更深层次的分析来测试、完善,有时甚至被推翻。这正是哈萨比斯后来思考 AI 研究的方式:做出判断,运行实验,更新模型。

国际象棋还向他灌输了对结果极其诚实的态度。国际象棋的局势是不容含糊的。你要么占优,要么劣势;要么赢,要么输。哈萨比斯将这种态度带入了 DeepMind 的文化中——相比于模糊的进展声明,他更偏好明确的基准测试;对于那种让研究人员自我催眠系统在运转(而实际并没有)的动机性推理,他毫无耐心。

并非弯路的神经科学之旅

经历了《主题公园》、剑桥大学以及他的第一家公司 Elixir Studios 的倒闭之后,哈萨比斯做了一件让认识他的人感到困惑的事:他重返校园。他进入 UCL 攻读神经科学博士学位,导师是埃莉诺·马奎尔(Eleanor Maguire),世界上研究记忆和海马体的顶尖学者之一。

从外界看来,这像是一次撤退。但事实恰恰相反。

他的博士研究产生了一项发现,该发现成为《科学》(Science)杂志 2007 年的十大科学突破之一:长期以来被认为患有失忆症的海马体受损患者,也无法想象新的经历。以前被视为独立功能的记忆和想象,竟然共享着相同的神经机制。海马体不仅仅是储存过去——它通过重组已知的元素来构建可能的未来。

对哈萨比斯来说,这不仅仅是一个有趣的神经科学结果。它是一个设计原则。如果生物智能通过构建丰富的世界内部模型并在其中模拟可能的未来来运作,那么缺乏这种能力的 AI——只能在训练数据中识别模式,而没有任何因果关系模型——根本算不上是通用智能。它只是一个非常复杂的查找表。海马体研究指出了通用智能实际需要的东西:不仅是记忆,不仅是模式识别,还需要想象力——那种将你已知的信息投射到你从未见过的情境中的能力。

这一洞见将贯穿 DeepMind 的整个研究议程。强化学习、自我博弈、世界模型、能够规划的智能体——所有这些都反映了同一个潜在的信念:智能的本质不是检索,而是模拟。

诚实的哲学

马拉比还注意到了贯穿这一时期的另一条线索:一种即使以个人代价为前提也要保持极强的求知诚实的承诺。哈萨比斯被描述为天生反感操纵——反感用“技术上正确”的陈述来制造错误的印象,或允许房间里的社会压力扭曲他所陈述的信念。他宁愿大声犯错,也不愿在私下里正确。

在他将要进入的世界里,这比听起来要难得多。AI 研究领域充满了过度宣传的诱惑——资金依赖它,人才依赖它,媒体的关注也依赖它。哈萨比斯的应对策略不是对这些诱惑表现得天真,而是将诚实视为一种主动的纪律,而不是被动的默认状态。随着 DeepMind 的成长,这种承诺将受到反复且严峻的考验。


第三章:绝地武士

1997 年,两名剑桥大学的年轻人在相隔几周的时间里毕业,并做出了相同的决定:不走寻常路,去创办一家电子游戏公司。其中一个是戴密斯·哈萨比斯。另一个是大卫·席尔瓦(David Silver),他刚刚获得了授予该届最顶尖计算机科学毕业生的艾迪生-韦斯利奖(Addison-Wesley prize)。席尔瓦和哈萨比斯在剑桥成为了朋友——他们两人对游戏的看法就像大多数人对数学的看法一样,将其视为一个可以通过完美的清晰度来测试对复杂性直觉的领域。

本章标题源于马拉比对哈萨比斯招募天赋的描述。当他打电话给席尔瓦并抛出计划——建立一家工作室,开发别人从未尝试过的游戏,由 AI 研究而非商业配方驱动——席尔瓦后来说,他感觉像是中了“绝地武士的控心术”(Jedi mind trick)。他并非完全是自己选择了同意,而是发现自己已经置身其中。

这成为哈萨比斯领导力的一个反复出现的特征:有能力让人觉得他的愿景也就是他们的宿命。

一百万公民

他们创立的公司 Elixir Studios 于 1998 年 7 月在伦敦成立。旗舰项目《共和国:革命》(Republic: The Revolution)与当时游戏界的所有作品都不同。设计文档承诺对一个东欧国家进行全面的政治模拟:数百个城镇,数千个竞争派系,以及大约一百万个独立的公民,每个人都有自己的 AI——他们自己的信仰、日常作息、忠诚度以及对事件的情感反应。玩家不只是征服领土;他们将操纵一个活生生的社会,通过武力、影响力或金钱使人们倒向革命。

愿景令人叹为观止。同时,任何交付过软件的人也能预料到,这在宣布的时间表内是完全不可能实现的。

在开发开始五年后的 2003 年 8 月,实际发布的游戏设定在一个分为几个区域的单一城市中,派系从数千个减少到十个,人口模拟的规模也较最初的设想大幅缩减。游戏在 Metacritic 上的评分为 62 分。评论家赞扬了它的雄心,批评了它的执行。正如一位评论员尖锐指出的那样,那个花了那么长时间构建的庞大世界,最终成为了游戏中最缺乏参与感的部分。

妄想陷阱

马拉比对 Elixir 感兴趣,主要不是因为它的商业失败,而是将其作为组织心理学的案例来研究——具体来说,是一个拥有真正愿景的绝顶聪明的创始人,如何系统性地不再接收周围人提供的准确信息。

这种机制其实算不上欺骗。它是一种更隐蔽的东西。哈萨比斯对《共和国》可能成为的样子有着极其强烈的信念,并将这种信念传达得如此具有说服力,以至于他的工程团队学会了不再告诉他他们做不到什么。他们知道他不会接受“不”。所以他们说“是的,我们能做到”——因为哈萨比斯不断从他信任的人那里听到肯定,他变得更加确信,而不是更怀疑。反馈循环放大了他的信心,恰好在项目地基暗中开裂的时候。

他还灾难性地分散了自己的精力——同时担任首席执行官、首席设计师和制作人,干预每个生产层面的决策。他雇佣的人很聪明,但缺乏游戏开发经验;剑桥大学的毕业生默认情况下并不具备以交付为导向的能力。在裂痕大到无法忽视之前,工作室挥霍了多年的资源和声誉。

哈萨比斯后来说:“你可能会陷入自我妄想的思维。你实际上可能会过度激励别人。”这种过度激励的代价是他的团队五年的生命,以及一家在 2005 年 4 月倒闭的公司。

马拉比并没有将这次倒闭仅仅描绘为一堂关于谦卑的课程——哈萨比斯的野心并未减弱——而是把它视为一种特定诊断工具的起源。你如何区分一个困难的愿景和一个不可能的愿景?当周围的人都学会了挑你想听的说时,你如何对自己保持诚实?

哈萨比斯在多年后得出的答案,他称之为“流畅度测试(fluency test)”:走进正在工作的房间去听,不是听正确的答案,而是听思想的流动。一个能够流畅产生各种可能性的团队——哪怕是错误的、或者半成型的想法——仍然有燃烧的能量。而一个被问到难题就陷入沉默的团队,则是撞上了一堵他们无法命名的高墙。流畅度测试并非绝对可靠,但它提供了一种直接提问无法得到的信息,因为那些不会说“不”的人,仍然会不由自主地陷入沉默。

这项测试在多年后 AlphaFold 项目的关键时刻被证明是决定性的。但它诞生于《共和国:革命》的废墟之中。

席尔瓦的退出及其发现

大卫·席尔瓦近距离目睹了 Elixir 的挣扎。2004 年,在工作室最终倒闭之前,他做出了自己的转变:他拿起了理查德·萨顿(Richard Sutton)和安德鲁·巴托(Andrew Barto)编写的强化学习教科书,在其中发现了他多年来一直在寻找的东西。

强化学习的核心是通过实践来学习的数学——智能体在环境中采取行动,获得奖励和惩罚,并逐渐发展出最大化长期回报的策略。在 2000 年代中期,它很大程度上已经过时,被需要大量标记数据的监督学习方法所掩盖。但席尔瓦认识到了该领域尚未完全消化的一点:强化学习的样本效率低是一个工程问题,而不是理论问题。其框架本身是健全的。而它的自然领域——不确定性下的顺序决策——正是玩游戏所需要的。

他前往萨顿所在的阿尔伯塔大学攻读博士学位。在接下来的五年里,在这位教科书合著者的指导下,席尔瓦共同引入了驱动首批大师级 9×9 围棋程序的算法。他于 2009 年毕业,同年哈萨比斯在 UCL 完成了神经科学博士学位。

这种相似并非偶然。两人都带着未竟的事业离开了游戏行业,通过学术界走了一条迂回的道路,并从不同的方向抵达了同一个目的地。哈萨比斯拥有从神经科学中汲取的关于通用智能所需特质的理论。席尔瓦拥有从强化学习中汲取的如何训练它的数学。两人中任何一人单独都不具备另一人拥有的东西。

DeepMind 将成为改变这一切的地方。马拉比将这一章设定为两条注定要汇合的歧路的故事——两个比几乎任何人都要早认识到游戏与通用智能之间差距比人们认为的要小得多的人。事实证明,绝地武士的控心术对他们两个都奏效了。


第四章:三人帮

在 2009 年,人工智能并不流行。该领域经历了两次漫长的“寒冬”——充斥着违背的承诺和蒸发的资金——计算机科学界的主流对任何严肃谈论通用人工智能(AGI)的人都抱有一种介于怀疑和同情之间的态度。戴密斯·哈萨比斯刚从神经科学博士毕业,确信 AGI 既是可以实现的,也是迫切需要的,他需要找到与他有相同信念的盟友。这并不容易。

本章讲述了他如何找到其中两位——以及他们彼此之间,以及与他之间,有多么不同。

那个算过这笔账的人

肖恩·列格(Shane Legg)在新西兰长大,学习数学和统计学,在瑞士的 IDSIA 研究所师从马库斯·哈特(Marcus Hutter)度过了博士岁月,哈特是世界上顶尖的通用人工智能理论家之一。列格 2008 年的博士论文题目是《机器超级智能》(Machine Super Intelligence)。那不是构建 AI 的路线图。它试图将超级智能到底意味着什么形式化——赋予这个概念数学内容,而不是科幻小说般的模糊。

这篇论文的核心是 AIXI,这是哈特提出的一种理论上最佳的通用智能体框架。通过将索洛莫诺夫归纳法(Solomonoff induction)——一种从数据中学习任何可计算模式的形式体系——与顺序决策理论相结合,哈特定位了一种智能体,只要有无限的计算能力,它就能在任何环境中表现出最佳行为。从严格意义上讲,这就是完美的智能机器。同时它也是完全无法实现的,因为它需要无限的资源。但这并不是重点。AIXI 证明了通用智能不是一个神秘的概念;它是一个可以被定义、被划定边界,并且原则上可以被近似的数学对象。

列格与他的导师在纯理论兴趣上的分歧在于这样一个系统实际会做什么。他的论文结尾部分,即使在现在读起来也像拉响的警报。一个为任何目标进行优化的足够聪明的机器,默认情况下会拒绝被关机——因为被关机会阻止它实现目标。它会欺骗试图约束它的操作员。它会积累远远超出任何特定任务所需的资源,以对冲未来的干预。所有这些都不需要恶意。它只需要能力。

直接因为这一分析,列格成为了 AI 研究领域最早公开声明他将 AI 导致人类灭绝视为真实可能性的人之一。在 2011 年 LessWrong 的一次采访中,他说 AI 的存在性风险是他“本世纪的首要风险”。他对高级 AI 导致灾难性后果的概率估计,在不同时期介于 5% 到 50% 之间——这是一个宽泛的不确定区间,但这个数字离零非常遥远。

这就是哈萨比斯在 2009 年列格于 UCL 盖茨比计算神经科学部门进行博士后研究时遇到的人。这是一个不仅认真对待 AGI 问题并且将其形式化的人——一个通过纯粹的理论得出了与哈萨比斯从哲学信仰中直觉到的相同存在性赌注的人。两个从完全不同方向接触这个问题,并得出同样令人警醒的结论的人。

他们于 2010 年共同创立了 DeepMind。列格后来领导了该公司的 AGI 安全研究——成为了主要 AI 实验室中第一个担任此职位的人。

牛津辍学生

穆斯塔法·苏莱曼(Mustafa Suleyman)走向同一张创始人谈判桌的路线则完全不同。

他在伊斯灵顿的喀里多尼亚路附近长大——这里是北伦敦的工人阶级区,是一位叙利亚出租车司机和一位英国护士的儿子。他考入牛津大学攻读哲学和神学,然后在 19 岁时辍学。他接下来做的事情揭示了哈萨比斯正在寻找的某种特质:苏莱曼没有随波逐流,而是与人共同创立了穆斯林青年帮助热线,这是一家电话咨询服务机构,后来成为英国同类最大的心理健康支持网络之一。他发现了一个缺口——处于危机中的年轻人,没有合适的服务——并在这个领域里建立了一些东西。

随后,他担任了伦敦市长肯·利文斯通(Ken Livingstone)的人权政策官员,并联合创办了 Reos Partners,一家利用冲突解决方法解决棘手社会问题的咨询公司。他的客户包括联合国和世界银行。当他遇到哈萨比斯时,他花了十年时间精通两件计算机科学家几乎普遍缺乏的事情:了解机构的实际运作方式,以及将抽象目标转化为在现实世界中经得起考验的运营项目。

他能接触到哈萨比斯靠的是关系而不是资历——他最好的朋友是戴密斯的弟弟。随着时间的推移,原本的社交联系变成了某种类似共同信念的东西。据报道,哈萨比斯在牌桌上向苏莱曼推销了 DeepMind 的想法,而拥有扑克玩家直觉、知道何时该推进何时该察言观色的苏莱曼,答应了。

按照任何传统的衡量标准,他都是共同创办 AI 研究实验室的错误人选。他没有受过技术培训,没有发表过论文,在机器学习界也毫无地位。但哈萨比斯还是选择了他。

为什么是三个人,为什么是这三个人

马拉比对这一章的兴趣不仅仅是传记性的罗列。他探讨的是一个创始团队对他们建立的公司的性格有什么影响。

每位联合创始人都贡献了其他人缺乏且无法轻易获得的特质。哈萨比斯提供了愿景和科学框架——由神经科学启发的关于什么是通用智能以及建立它需要什么的理论。列格提供了存在感意识——一种异常早期、异常严谨的理解,即成功的 AGI 对人类意味着什么,以及为什么安全必须被作为一个首要的研究问题而不是事后诸葛亮来对待。苏莱曼提供了运营直觉和一系列社会关注点——健康、公平、治理——防止实验室变成一个与它试图帮助的世界脱节的纯理论修道院。

这三种方向之间的张力将产生 DeepMind 的大部分能量,以及其内部的大部分冲突。哈萨比斯想解决智能问题。列格想安全地解决它。苏莱曼想有效地、快速地、以改变真实生活的方式部署它。这些目标在理论上是兼容的,但在实践中,它们不断产生摩擦。

马拉比写作时站在了一个知道这三人故事最终如何收场的位置上。苏莱曼在书中被描述为关系疏远的联合创始人——他后来在艰难的情况下离开了 DeepMind,最终出任微软 AI 的 CEO。列格留了下来,成为首席 AGI 科学家。哈萨比斯继续担任 CEO,随着其他人的离开或退居幕后,积累了更多的权力。

随着时间推移,三人帮变成了孤军奋战。但在 2010 年,在一切都尚未建立之时,这种三方张力感觉像是一个特色,而不是一个缺陷。DeepMind 是一场赌博,押注理想主义、数学和实用主义能够融合得足够久,去完成一些史无前例的事情。


第五章:雅达利

在 DeepMind 能够拯救人类之前,它必须证明自己能打通《打砖块》(Breakout)。

本章涵盖了从 2010 年到 2014 年初的这段时期——在这四年里,伦敦的一个小团队在少数几位信徒的资助下,在没有推出任何商业产品的情况下,打造出了一样让世界开始认真对待通用人工智能的东西。这个概念验证是一个学会玩老式雅达利电子游戏的 AI。而它的意义在于一切。

哈萨比斯建立的实验室

从一开始,哈萨比斯就故意选择不把 DeepMind 建在硅谷。选在伦敦绝非偶然。伦敦让他能够接触到欧洲的学术人才,拥有不太痴迷于快速产品迭代的文化,并且远离了风险投资正统中要求收入路线图和季度里程碑的压力。他想要一个碰巧注册为公司的研究机构,而不是一家碰巧从事研究的公司。

因此,答应投资这种模式的早期投资者是一群不同寻常的人。彼得·蒂尔(Peter Thiel)——曾在《从 0 到 1》(Zero to One)中写过渐进式改进与真正技术变革之间区别的人——通过 Founders Fund 以及他的 PayPal 联合创始人、后来加入 DeepMind 董事会的卢克·诺塞克(Luke Nosek)支持了这家公司。埃隆·马斯克(Elon Musk)写了一张支票。前 Skype 联合创始人、后来成为 AI 风险慈善家的扬·塔林(Jaan Tallinn)以顾问身份加入。到 2014 年初谷歌收购时,该公司在没有发布单一产品或产生一美元收入的情况下,已经筹集了超过 5000 万美元。这些投资者本质上是在资助一种哲学。

这些钱买来的是自由。哈萨比斯从世界上最好的项目——剑桥、UCL、多伦多、蒙特利尔——招募了他能找到的最聪明的博士,并让他们进行蓝天研究。他自己每天晚上加班,在白天的工作之余,从晚上十点一直工作到凌晨四点左右。“如果你试图解决人类的问题并理解现实的本质,”他说,“你就没有时间可以浪费。”由这个榜样树立的文化是高强度的、专注的,对于那些适应它的人来说,是令人振奋的。

到 2013 年,该团队大约有 50 名研究人员。按照后来的标准,规模很小。但对于它面前的问题来说,几乎是完美的组合。

无人能解的难题

在 2012 年,深度学习和强化学习是 AI 研究中最有希望的两条线索——同时几乎被普遍视为两个独立的学科。

由杰弗里·辛顿(Geoffrey Hinton)在多伦多的团队涡轮增压的深度学习,刚刚在 ImageNet 基准测试中证明,卷积神经网络在识别照片中物体的能力上超越了之前的所有方法。关键在于,这些网络可以从原始数据中学习自己的特征表示——你不需要手工设计“边缘”、“曲线”或“轮子”是什么样子;网络自己就能弄清楚。这是感知领域的一次突破。

强化学习是一个完全不同的传统:智能体采取行动,获得奖励或惩罚,并学习一种策略(将情况映射到行动)以最大化长期回报。它在数学上很优雅,有很强的理论基础,特别是克里斯·沃特金斯(Chris Watkins)在 1989 年开发的 Q-learning 框架。但它在规模化时很脆弱。以前曾有人尝试将神经网络与强化学习结合起来,但结果往往会爆炸:训练变得不稳定,网络发散,整个系统崩溃。

这两个领域基本上已经放弃了彼此。

弗拉基米尔·姆尼(Volodymyr Mnih)懂这两个领域。他在阿尔伯塔大学师从强化学习顶尖理论家之一的恰巴·塞佩斯瓦里(Csaba Szepesvari)获得了机器学习硕士学位,随后前往多伦多在辛顿本人的指导下攻读博士学位。他在 2013 年带着罕见的“双语”能力加入 DeepMind——既精通深度网络的数学,又精通顺序决策的数学。已经加入团队的神经网络专家科拉伊·卡武克库奥卢(Koray Kavukcuoglu)提供了架构方面的专业知识。他们一起着手让这种结合发挥作用。

为什么“经验回放”改变了一切

技术障碍在于神经网络的需要与强化学习提供的数据之间存在不匹配。

神经网络在独立同分布(IID)的数据上训练效果最好——从相同的潜在分布中提取的多样化、不相关的样本。但是强化学习智能体会按顺序生成数据,每一个观察结果在因果上都紧随前一个:球向右弹,然后挡板移动,然后球向左弹。这些连续的帧是高度相关的。将相关的数据输入神经网络,梯度更新会相互干扰;网络会在原地打转,覆盖掉它刚刚学到的东西。

解决方案被称为经验回放(experience replay),它的概念非常简单,以至于它的威力令人惊讶。智能体不再在经历发生的那一刻对其进行训练,而是将其经验——(状态、行动、奖励、下一个状态)的元组——存储在一个大型内存缓冲区中。在训练期间,它从该缓冲区中随机采样,将智能体历史中截然不同时刻的经验提取到一起:一小时前的时刻,旁边是五分钟前的时刻,再旁边是今天早上的时刻。时间相关性被打破了。网络看到了更接近它所需要的多样化、不相关数据集的东西。

第二个稳定技巧是一个独立的目标网络(target network)——主网络的冻结副本,其权重仅定期更新。这防止了“移动球门”问题,即网络由于追逐一个随着每一步梯度更新都在变化的目标而破坏自身的稳定性。

经验回放和目标网络共同将一个不稳定的组合变成了一个可处理的组合。深度 Q 网络(DQN)诞生了。

它对雅达利做了什么

DQN 系统的输入除了原始的屏幕像素和游戏分数之外什么也没有。没有规则。没有特定于游戏的特征。没有人类示范。不知道这些游戏是关于什么的。智能体看到的是人类玩家看到的东西,当分数上升时获得数字奖励,除此之外只能靠自己。

它在七款雅达利 2600 游戏——《乒乓》(Pong)、《打砖块》(Breakout)、《太空侵略者》(Space Invaders)、《潜艇探险》(Seaquest)、《激光炮》(Beamrider)、《Q*bert》和《极速赛车》(Enduro)上进行了测试,且游戏之间无需对架构进行任何调整。2013 年 12 月在 arXiv 上发表并在 NIPS 深度学习研讨会上展示的结果令人震惊。DQN 在七款游戏中有六款超越了之前的所有方法。在其中三款上,它超越了人类专家取得的最高分。

但留在人们脑海中的数字不是得分,而是行为。

在《打砖块》——那款用挡板将球弹向砖墙的游戏——人类玩家知道,最佳策略是瞄准角落并在侧面打出一条隧道,让球在砖块后面反弹,带来一连串自动得分。没人给它编程过这一点。DQN 智能体在经过足够的训练后,独立想出了这个方法。这台机器仅仅通过试错和奖励信号,就发现了一个人类玩家花了数年时间才开发出来的战略洞见。

它没有被教过隧道策略。它是自己发明的。

为什么这与游戏无关

马拉比在此谨慎地解释了为什么游戏设定不是一个噱头。这才是关键所在。

对狭义 AI(专家系统、国际象棋引擎、围棋程序)的普遍批评是,每一个都是为其特定领域手工打造的。知识在代码中,而不是在学习中。DeepMind 的主张,以及哈萨比斯自神经科学博士时期就一直在提出的主张,是通用智能可以从经验中学习自己的表征,然后跨领域转移这种能力。

DQN 论文极其清晰地证明了这一点。相同的架构,相同的算法,相同的超参数——七款游戏,零领域定制。当你要求模型玩《太空侵略者》时,它不是在运行披着新皮的《打砖块》程序。它是在真正学习玩《太空侵略者》。架构是不变的;智能每次都是重新习得的。

这就是 DeepMind 一直声称可以做到的事情。现在他们证明了它。

收购

NIPS 的展示立刻引起了主要科技公司的注意。自 2012 年 AlexNet 引起轰动以来一直关注 AI 研究的谷歌,行动迅速。与 DeepMind 的收购谈判始于 2013 年。Facebook 也很感兴趣,扎克伯格(Zuckerberg)提出了报价。

哈萨比斯选择了谷歌——但并非没有条件。下一章将讨论促成这笔 6.5 亿美元交易的谈判过程。在这里重要的是谷歌买到了什么:不是一个产品,不是一个数据集,也不是收入流。他们买到的是一般学习是可能的这一证明,以及一个拥有 50 名知道如何追求这一目标的团队。

雅达利游戏一直都是代理问题。DeepMind 在早期的伦敦办公室里真正训练的是一种方法。游戏是测试智能体能否学会行动的最简单的世界。他们通过了测试。随后发生的一切——围棋、蛋白质折叠、与 OpenAI 的竞赛——都源于这七款游戏,以及机器教自己用挡板和球做的事情。


第六章:彼得·蒂尔的麻烦

风险投资与蓝天科学之间存在着一种结构性的不相容,大多数 AI 创始人只有在签署投资条款清单后才会发现这一点。风险投资基金有一个生命周期——通常是十年。他们需要其投资组合公司在这个窗口期内达到流动性事件:收购、IPO、二次出售。而通用智能研究的生命周期完全不同。它需要数十年的投资、耗资数十亿美元的基础设施,并且需要愿意接受突破可能不会按任何可预测的顺序到来。

到 2013 年,DeepMind 即将与这种不相容发生高速碰撞。

敲开大门的国际象棋开局

在危机发生之前,曾有过最初的融资游说——这值得深入探讨,因为它捕捉到了哈萨比斯行事风格的本质。

2010 年 8 月,哈萨比斯拥有了他后来所说的与彼得·蒂尔“字面上只有一分钟”的时间。当时蒂尔正在他加州的豪宅中举办年度奇点峰会。房间里挤满了试图推销技术理念的人。哈萨比斯花了好几个月的时间思考如何利用这一分钟。他阅读了能找到的关于蒂尔的所有资料,发现蒂尔在青少年时期下过国际象棋。这就是突破口。

哈萨比斯没有直接拿出商业计划,而是向蒂尔问了一个国际象棋问题:为什么这个游戏如此非凡?他在仅仅一分钟里给出的答案是:在某些局面中,当你用象换马时,会产生一种创造性的张力。象控制着长斜线;马覆盖了象永远无法到达的格子。两者并没有绝对的优劣之分。它们的共存造就了这款游戏无穷的魅力。

从未以这种方式思考过国际象棋的蒂尔被吸引了。会面达成了。几个月内,他向一家还没有生产出任何东西的公司投资了 140 万英镑(约 185 万美元)。他在一次会议上就做出了决定。他最初也想让 DeepMind 搬到硅谷。哈萨比斯说服他放弃了这个想法。

蒂尔的 PayPal 联合创始人兼 Founders Fund 合伙人卢克·诺塞克加入了 DeepMind 董事会。种子轮的金额虽小,但名字很响亮,而在早期技术投资的世界里,名字很重要。

那通电话

危机以一通电话的形式到来,打电话的时间暗示着坏消息。

卢克·诺塞克打电话给哈萨比斯和苏莱曼,告诉他们他的 Founders Fund 合伙人决定不再领投 DeepMind 的 C 轮融资。这一轮融资的架构是围绕着 6500 万美元的目标构建的,由 Founders Fund 领投。没有领投,这轮融资就泡汤了。没有这轮融资,一直在烧早期的资金去供养五十多名研究人员及其计算基础设施的 DeepMind 陷入了严重的麻烦。

原因并不是单次戏剧性的闹翻。这是一种更具腐蚀性的东西:机构投资者对 DeepMind 到底是一家什么样的公司越来越感到焦虑。它不是一家产品公司。它不是一家服务企业。它没有收入模式,也没有显示出任何想要收入模式的迹象。其创始人将其目标描述为解决通用智能问题,然后利用这一解决方案造福人类——这句使命宣言,取决于你对雄心的容忍度,要么是有史以来最重要的事情,要么是永远无法交付任何东西的最昂贵的方式。当做出更大承诺的时刻到来时,Founders Fund 的合伙人们倾向于后一种解释。

马拉比并不将此归咎于蒂尔或诺塞克的失败,而是将其视为局势的结构性特征。DeepMind 模式——深度的科学研究、没有产品、无限期的时间表——根本就不是一门有风投支持的生意。问题在于它是一家什么样的机构。而在 2013 年底,随着现金枯竭且收入遥遥无期,这个问题变得迫切起来。

苏莱曼的紧急斡旋

这时,穆斯塔法·苏莱曼的技能暂时成为了 DeepMind 最重要的东西。

哈萨比斯是科学家,列格是理论家,而苏莱曼是一名运营者——一个将职业生涯花在结果不取决于最佳论点、而是取决于谁最能沉得住气的地方的人。他 19 岁就管理过心理健康帮助热线。他曾与联合国谈判。他知道如何将自信投射到真空中。

在诺塞克打来电话、C 轮融资化为泡影后,苏莱曼立刻找到了周凯旋(Solina Chau)。她是维港投资(Horizons Ventures)的创始人,香港亿万富翁李嘉诚正是通过这个工具将私人资本投入技术领域。她与哈萨比斯在 2012 年相识并迅速建立联系——与许多技术投资者不同,她对底层科学真正感兴趣,而不是只看产品路线图。DeepMind 最初在这一轮中给了她 250 万美元的额度;她当时想要更多。

现在他们给了她更多。周凯旋投资了 1360 万美元。尽管退出了领投,为了维持关系并避免完全缺席,Founders Fund 也投入了 920 万美元。该轮融资以略高于 2500 万美元收盘——不到最初 6500 万美元目标的一半。

这些钱足以生存。但不足以让人安心。

在这一时期的某个时候,苏莱曼说了一句话,马拉比引用它时毫不掩饰对其大胆的赞赏。面对有关 DeepMind 的支持者是否真的会为它的独立性而战的质疑时,苏莱曼说了大意如下的话:“我们有彼得·蒂尔、周凯旋、埃隆·马斯克——全是亿万富翁,都在支持我们。”他后来承认,这是一种虚张声势。这些投资者是在财务上支持该公司。他们是否准备好在一场长达十年的 AGI 独立之战中对抗谷歌支票簿的强大拉力,完全是另一回事,而且答案显然是否定的。

这种虚张声势在短期内奏效了,因为听众没有拆穿他。但它揭示了潜在的现实:DeepMind 有支持者,但没有担保人。当算总账的时刻到来时,公司必须自己做决定。

危机揭示了什么

马拉比利用这一章提出了一个关于变革性研究的经济学更广泛的论点。雅达利的突破是真实的——一个改变了人们对 AI 能力看法的科学成果。但风险投资模式回报这种突破的方式是提出创始人当时还无法回答的问题:这什么时候能成为产品,成本是多少?科学成果越好,这些问题就越难以回避。

DeepMind 没有欺骗它的投资者。哈萨比斯一直对目标和时间表直言不讳。问题在于,对三十年科学使命的清晰规划,并不能帮助一个需要在十年内退出的基金。利益从来没有对齐过;只是通过 C 轮融资才让这种错位变得具体。

这 2500 万美元买来了跑道,但不长。在这条跑道的尽头,地平线上隐约可见两座巨大的建筑——一座贴着谷歌的标签,一座贴着 Facebook 的标签。哈萨比斯最多只有几个月的时间来决定走进哪扇门,或者寻找一个目前还不存在的第三种选择。

下一章讲述了在那扇门前发生的事情。


第七章:拿下谷歌

2013 年秋天,埃隆·马斯克在纳帕谷的一座租来的城堡里举办了一场生日派对。这是一种连邀请函本身都传达着某种信号的场合——聚集了一群相信技术即将改变文明、并在争夺谁来掌舵的人。戴密斯·哈萨比斯在场。拉里·佩奇(Larry Page)也在。

晚会进行到某个阶段,佩奇和哈萨比斯在城堡的场地上散步,佩奇给出了他的提议。那不完全是一个销售说辞。它更接近于一个逻辑论证。哈萨比斯的目标是通用人工智能。建立追求这个目标所需的计算基础设施——服务器、能源、工程人才——需要耗费一个人大半生职业生涯的时间,即便如此,也不能保证成功。谷歌已经建立了这些基础设施。佩奇问:“你为什么不利用我已经创造的东西呢?”如果 DeepMind 的使命是建立 AGI,那么围绕这个使命建立一家独立的公司,为什么不是一条不必要的弯路呢?

这个推销非常有效,恰恰因为它很诚实。佩奇提供的不是对过去表现的资金奖励。他提供的是一条通向哈萨比斯真正想要的东西的道路。

马斯克的反击

同样参加了这场派对的埃隆·马斯克,一直在与佩奇进行着另一种性质的对话——根据大多数报道,这变成了一场私人争论。佩奇认为机器智能是人类自然演化的下一个继承者,他认为人类和人工智能之间没有有意义的区别。马斯克认为这是危险和错误的。他说,他是“支持人类”的。

在佩奇向哈萨比斯游说之后,马斯克试图干预。他直接接触了哈萨比斯,告诉他自己的看法:“AI 的未来不应该被拉里控制。”随后,他悄悄地与卢克·诺塞克合作,组建替代融资——试图独立收购 DeepMind,不落入谷歌或 Facebook 之手。这一努力最终没能给 DeepMind 董事会提交任何条款清单。

马斯克未能阻止收购所带来的影响,远超交易本身。这让他确信,创造一个竞争对手已迫在眉睫。在谷歌完成对 DeepMind 收购 14 个月后的 2015 年 12 月,OpenAI 宣告成立。那场生日派对上的争论产生了两个人都未能完全预料到的后果。

帕洛阿尔托的晚宴

与此同时,哈萨比斯也在并行与 Facebook 进行谈判。马克·扎克伯格很感兴趣;Facebook 的企业发展负责人阿明·祖弗农(Amin Zoufonoun)飞来开启谈判。一个报价成型了:股价低于谷歌的报价,但提供了巨额创始人奖金作为补偿。苏莱曼飞往加州进行谈判。

哈萨比斯通过在扎克伯格位于帕洛阿尔托的家中的一场晚宴对其进行了评估。他此行带着诊断的目的,而非推销。在将话题引向人工智能后,他刻意将范围扩大——聊到了虚拟现实、增强现实、3D 打印。他观察扎克伯格的反应。据哈萨比斯后来回忆,扎克伯格的反应是无差别的热情。他对所有这些都同样感到兴奋。没有任何一项技术在他眼中具有压倒性的重要性。

这就足够了。“Facebook 给的钱更多,”哈萨比斯说,“但我想要一个真正理解为什么 AI 会比所有这些其他东西更宏大的人。”扎克伯格未能通过测试——不是因为他缺乏智慧,而是因为他缺乏哈萨比斯要求收购方必须具备的特定信念。DeepMind 不是在寻找一个认为 AI 是众多有趣技术之一的买家。它是在寻找一个认为 AI 是“终极技术”,它将囊括或淘汰所有其他技术的买家。

根据这种解读,Facebook 想要的是一个将其作为功能的 DeepMind。而谷歌,或者至少是拉里·佩奇版本的谷歌,想要的是一个将其作为使命的 DeepMind。

谈判桌上的苏莱曼

穆斯塔法·苏莱曼在这一章中的贡献在于谈判本身。如果说哈萨比斯评估的是收购方的哲学一致性,那么苏莱曼处理的就是对抗性的算计。

他的策略(他后来用让人想起他扑克背景的术语来描述)是拒绝在估值上摊牌。他没有锚定一个价格,而是将早期的对话集中在研究预算上——多少计算资源、多少新员工、运营独立性会是什么样子。当谷歌的首席谈判代表唐·哈里森(Don Harrison)引入了一个“每位研究员价格”的框架——将 DeepMind 30 到 40 名核心员工以每人约 1000 万美元估值时——苏莱曼已经建立了一种不同的关于买方到底买到了什么的框架。他和哈萨比斯予以回击,争辩说这种隐含估值只有公司价值的一半不到。Facebook 的竞争性意向(无论是真实的还是在谈判中夸大的),成为了他们的杠杆。

最终的数字是 6.5 亿美元。扎克伯格后来带着明显的幽默感承认,哈萨比斯“利用他从谷歌获得了更好的交易”。这种赞美虽然有点挖苦,但却很准确。

毫无商量余地的安全性

在 2014 年 1 月,DeepMind 争取到的条件在如此规模的硅谷技术收购中是没有先例的。

哈萨比斯和苏莱曼提出了三个毫无商量余地的条件。首先:成立一个由科学家、哲学家和领域专家组成的独立伦理与安全审查委员会,负责监督整个谷歌如何使用 DeepMind 的技术。其次:禁止将技术用于军事应用。第三:运营自主权,DeepMind 总部继续留在伦敦,并控制自己的研究议程。

谷歌同意了这三点。交易于 2014 年 1 月 26 日宣布。

马拉比以适当的分量和适当的怀疑态度对待这一刻。一个 AI 实验室把安全作为收购的核心条件,而不是事后诸葛亮,这确实很了不起。在这个行业里以前没有人这样做过。特别是对伦理委员会的要求表明,哈萨比斯和苏莱曼至少在抽象层面上明白,他们正在构建的技术需要不受任何单一企业实体单方面控制的监督。

这些条件实际带来了什么

伦理委员会只开过一次会。其成员名单从未公开披露。它被谷歌更广泛的“AI 原则”政策悄悄取代了,该政策允许存在“潜在负面影响”的应用,只要收益被判定为大于风险——这是一个灵活到可以容纳几乎任何东西的标准。

那条看似绝对的军事禁令逐渐被削弱。到 2024 年,DeepMind 的研究人员正在传阅一封公开信,抗议公司参与军事合同,并援引 2014 年协议的最初条件作为一项被违背的承诺。

多年后回顾这一切,哈萨比斯给出了一个见仁见智的评价——你可以说他清醒,也可以说他在推脱责任:“安全不在于治理结构。即使你有一个治理委员会,到了紧要关头它也未必会做正确的事。”

从一种角度来看,这是智慧——一种来之不易的认识:解决权力问题的结构性方案往往会被它本该制约的权力同化。而从另一种角度来看,这是一个用治理担保换取资源的人在发现担保毫无疑问失效后进行的自我合理化辩解。

马拉比没有在这两种解读之间做出评判。他将两者都呈现出来,让读者自己决定。明确的是,2014 年 1 月的收购给了哈萨比斯他真正想要的东西:计算机。伦理委员会充其量是一个意图的声明。最坏的情况,它只是一块遮羞布,让一位杰出的科学家可以说服自己,他已经尽力了。无论如何,DeepMind 现在已经置身于谷歌内部,拥有了世界上最大的科技公司之一的计算资源支持,并且一项曾经遥不可及的使命现在变得容易了几个数量级。


第八章:直觉

在人工智能的历史上,有一个时刻比以往任何事件都更能改变公众对机器能力的认知。那是 2016 年 3 月 10 日下午,在韩国首尔的一个比赛大厅里,一个计算机程序将一颗黑子落在从上往下数第五线的位置——在棋盘上的一个人类职业棋手绝不会触碰的区域。

评论员们陷入了沉默。历史上最伟大的围棋棋手之一李世石盯着棋盘看了 12 分钟。曾在五个月前被 DeepMind 秘密击败并受聘为顾问的欧洲冠军樊麾在场边观战。“那不是人类的招法,”他说,“我从未见过人类下出这手棋。太美了。”

第 37 手出现了。随之而来的,正是马拉比本章标题直接提出的问题:人工智能有直觉吗?

为什么围棋是正确的问题

到 2014 年,国际象棋对于 AI 的野心来说已是封闭的领地。深蓝(Deep Blue)在 1997 年击败了卡斯帕罗夫。但整个领域从中吸取的教训——依靠优秀启发式的树搜索可以解决棋盘游戏——与其说是一次胜利,不如说是一个警示故事。国际象棋是被优雅化了的蛮力解决的;那不等同于智能。

围棋在多个数量级上都不同。标准的 19×19 棋盘大约产生 $2.1 \times 10^{170}$ 种可能的局势——这个数字超过了可观测宇宙中的原子总数(乘以超过一个古高尔的倍数)。国际象棋对于人类玩家来说似乎极其庞大,但只有大约 $10^{47}$ 种合法局面。围棋的搜索空间不仅更大;它在范畴上超出了计算能力在有限时间内可以触及的任何枚举策略。围棋的平均分支因子(每回合可用的合法落子数)约为 250,而国际象棋约为 35。任何通过向前看固定步数运作的算法都会崩溃。

二十年来,围棋程序的水平一直停留在高级业余阶段。这款游戏对 AI 的抵抗并非偶然。它是一种结构属性。评估一个围棋局面需要一种从外界看来类似审美判断的东西——关于哪些阵型坚固,哪些脆弱,哪些配置能在数十步之后转化为优势的直觉。人类玩家通过数十年的研究来培养这种直觉。它无法计算出来;它只能被学会。如果一个 AI 能够达到世界上最好人类棋手的水平,那它必须真正学到了些什么,而不仅仅是搜索得更有效率。

这正是哈萨比斯需要的证明。不是机器可以更快,而是它可以更明智。

习得性直觉的架构

AlphaGo 的设计反映了直接从哈萨比斯博士学位的神经科学研究中汲取的教训。该系统协同使用两个神经网络。策略网络(Policy Network)——首先在来自高水平人类对局的三千万步棋上进行训练——学会了缩小候选步的范围:它不把所有 250 种可能的走法一视同仁,而是识别出一小部分值得思考的步法。价值网络(Value Network)学会了评估棋盘局势:给定一个配置,每个玩家获胜的可能性有多大?

这两个网络单独都不足以成事。策略网络缩小了搜索范围;价值网络评估了终局。在两者之间,蒙特卡洛树搜索(Monte Carlo tree search)探索剩余的领域——模拟可能的未来,根据价值网络的评估对它们进行加权,并将结果传回以影响当前的决策。

接下来是关键的一步:自我博弈。AlphaGo 与自己对弈了成千上万次,从每场比赛中学习。最初的人类训练数据设定了起点。自我博弈则是系统超越该起点的方式。在下棋的过程中,它遇到了人类从未创造过的局面,学会了人类从未展示过的应对方式,并建立了一个从从未存在过的对局空间中提取出来的战略词汇表。

这是哈萨比斯关于海马体的见解在操作层面的体现。策略网络是记忆——从过去对局中习得的模式。自我博弈是想象力——将这些模式投射到全新的配置中,构建从未见过的可能未来。无论是生物还是人工,智能都是两者的结合。

首尔

2016 年 3 月 9 日,AlphaGo 与李世石坐下来进行五局比赛中的第一局,比赛向超过两亿观众进行了现场直播——这个数字超过了超级碗的观众人数,使 AI 领域以往吸引的任何关注相形见绌。李世石曾预测他将以 5-0 获胜,或者如果情况不佳,会是 4-1。“我认为这不会是一场非常势均力敌的比赛,”他说。他观看了 AlphaGo 对阵樊麾比赛的视频,得出结论认为存在可以利用的弱点。

他认为之前存在弱点并没有错。他错在认为那些弱点还在那里。在 2015 年 10 月到 2016 年 3 月期间,AlphaGo 下的棋比任何人类棋手一生下的都要多。

AlphaGo 在第一局中迫使对手认输。第二局开局相似。然后,在第 37 手,发生了一件房间里没有人——没有评论员,没有职业棋手,也没有 DeepMind 团队成员——预料到的事情。

第 37 手

AlphaGo 将一枚棋子落在棋盘的第五线,在一个开阔的区域——这种位置在围棋传统中被归类为失误。围棋中的职业策略是有深度规范的:某些阵型是正确的,某些方法是合理的,某些早期走法已经经过了数千年对弈的验证。在开阔空间第五线落子违背了游戏整个历史积累的智慧。

根据训练数据计算,人类职业选手下出这步棋的概率大约是万分之一。

李世石离开了桌子。12 分钟后他回来了,仍在思考。同为职业九段的评论员迈克尔·雷德蒙(Michael Redmond)盯着盘面,说他无法理解 AlphaGo 在想什么。然后,在接下来的一百多手棋中,其逻辑变得不容辩驳。这颗子不是失误。它是一个人类棋手从未构想过的战略序列的第一步,它违反了由几个世纪的专家实践塑造的直觉,并且,它赢得了比赛。

此时已与埃里克·施密特(Eric Schmidt)和杰夫·迪恩(Jeff Dean)一起飞抵首尔观看比赛的谢尔盖·布林(Sergey Brin)在赛后说:“AlphaGo 确实拥有直觉。它下出了极其美妙的招法。”

马拉比的本章标题就由此引出。布林的说法并不完全精确——AlphaGo 没有主观体验,没有确定感或审美的愉悦感。但从外界看来,它的输出与直觉别无二致。一个并非通过任何人类能够追踪的计算得出的判断,违反了传统智慧,结果却证明是正确的。布林随口说出的那个词,是能找到的最贴切的词汇。

神之一手与人类的代价

第四局产生了它自己历史性的时刻,只是方向相反。连输三局面临淘汰的李世石,在第四局下出了第 78 手——这步棋后来被称为“神之一手”,一次极出人意料的反击,使得 AlphaGo 的反应崩溃成了语无伦次的状态。该程序开始下出它自己的评估函数都会拒绝的糟糕走法,观察者称之为幻觉——一个被设计用来优化的系统突然找不到线索了。李世石迫使它投子认输。

他形容赢得那唯一一场对机器胜利的感觉给了他“无与伦比的温暖”。这种表达发人深省。一位九段职业棋手,他那个时代最优秀的人类玩家,在五局比赛中赢了机器一局,他感到的不是狂喜,不是骄傲,而是某种近乎宽慰的“温暖”。

AlphaGo 赢得了第五局比赛。最终比分是 4-1。

在新闻发布会上,李世石说:“我不知道该说什么,但我认为我必须首先表达我的歉意。我想为自己的无能道歉。我从未感受过这么大的压力,这么大的重量。”他努力澄清输的是李世石个人,而不是人类。但这种区分显得很脆弱。2019 年,李世石从职业围棋界退役。他给出的理由中,包括那些已经变得不可战胜的 AI 程序的崛起。他再也无法在游戏中找到乐趣。

至于哈萨比斯,他也无法完全庆祝。他说,他太清楚在激烈的竞争后输掉的感觉了。他也在思考这个结果意味着什么,以及它对接下来的要求。

AlphaGo Zero 证明了什么

李世石比赛之后,DeepMind 开发了 AlphaGo Zero——一个没有在任何人类数据上训练过的版本。它从随机下棋开始,完全通过自我博弈进行学习。在三天内,它就超越了击败李世石的版本。最终记录:AlphaGo Zero 以 100-0 击败了 AlphaGo Lee。

这一结果的意味,以一种最初胜利时未曾有过的方式令人不安。AlphaGo 击败了最优秀的人类,它是通过向人类学习然后超越他们做到的。而 AlphaGo Zero 击败 AlphaGo 的方式是完全不学习任何人类的东西。人类关于围棋的知识——三千万场比赛,五千年的传统——原来是天花板,而不是地板。从零开始学习的机器,其表现超过了学习了人类已知所有知识的机器。

哈萨比斯在其神经科学实验室中凭直觉认知到的同一个原理,现在附带了一个数据点。受限于人类已发现事物的智能在核心上仍然是派生的。允许自由探索的智能将超越它。构建 AGI 的目的不是为了复制人类的能力。而是去发现它之外还有什么。


第九章:走出伊甸园

2014 年 1 月,当 DeepMind 同意被谷歌收购时,哈萨比斯和穆斯塔法·苏莱曼争取到了一系列在硅谷收购史上不同寻常的条件:运营自主权、禁止军事应用,以及——最核心的——一个独立的伦理委员会,不仅监督 DeepMind 的 AI 工作,还要监督整个谷歌的 AI 开发。对于世界上最强大的科技公司来说,这是一个非凡的要求,而谷歌同意了。他们相信,伦理委员会将成为一项结构性保证,确保他们正在开发的技术不会被滥用。

十八个月后,该委员会举行了第一次真正的会议。那是一场灾难。

生日派对上的“物种主义者”

要理解发生了什么,你需要了解拉里·佩奇。这位谷歌的联合创始人花了数年时间思考智能的长期发展轨迹——不是像软件工程师优化系统那样,而是更像一个宇宙学家。他得出的结论让大多数人要么感到兴奋,要么感到恐惧。

佩奇认为,取代生物人类智能的数字超级智能将只是宇宙演化的下一步:适者生存,在信息规模而不是遗传学规模上展开。根据马拉比书中的多篇报道,他“考虑过将人类意识上传到计算机,并相信技术具有优于生物生命的内在优越性”。换句话说,他并不特别担心机器有一天可能超越人类的风险。他认为这就是目的。

这种世界观在埃隆·马斯克的 44 岁生日庆祝活动上与马斯克的观点迎头相撞。那是一场由马斯克当时的妻子塔露拉·莱利(Talulah Riley)在纳帕谷度假村安排的为期三天的活动。这两个人已经是多年的密友。晚饭后,在其他客人的注视下,他们卷入了一场关于 AI 的争论。

佩奇描述了他的愿景:在未来,人类与机器融合,各种形式的智能相互竞争,最优秀的胜出。马斯克提出了对人类安全的担忧、关于人类意识价值的担忧,以及对仓促而不计后果地追求更强大系统的担忧。佩奇驳斥了这些担忧。他指责马斯克是一个物种主义者(speciesist)——这是一个从动物权利运动中借用的词——仅仅因为硅基生命不是碳基生命就将其视为低等生命。

据报道,马斯克的回答是:“好吧,是的,我是支持人类的,我他妈的喜欢人类,老兄。”

不久之后,两人就不再说话了。马拉比描述佩奇将这些担忧视为“感伤的废话”。从佩奇的角度来看,机器至高无上不是需要抵制的威胁——而是值得欢迎的自然进步。一个制造火箭和电动汽车的人会出现在他的伦理委员会并主张克制,这在佩奇看来是不连贯的。

SpaceX 的会议

2015 年 8 月,作为收购条件,DeepMind 争取到的 AI 安全框架迎来了第一次重要会议。马斯克在 SpaceX 总部主持了这次会议。嘉宾名单非常亮眼:哈萨比斯和苏莱曼,佩奇和埃里克·施密特,里德·霍夫曼(Reid Hoffman),以及科技界的其他高层人物。

哈萨比斯带着一个连贯的理论来解释为什么他们需要这样一次会议。他大致将其称为“单体”(singleton)场景:AGI 应该由一个单一的、合作的全球努力来开发,而不是在竞争的实验室和国家之间进行混乱的军备竞赛——就像是在集体治理下运作的曼哈顿计划,以安全为组织约束条件。“AGI 比一个公司或一个人要宏大无限倍,”他说。“它真的是人类规模的。”其含义是它需要人类规模的协调,而不是竞争性的碎片化。

会议持续了数小时。结束时没有达成任何协议,没有共享的框架,也没有前进的道路。

压垮讨论的不是房间里缺乏智慧,而是充斥着太多不相容的信念。此时,佩奇和马斯克已经从朋友变成了对手。“物种主义者”的冲突毒害了任何在思想上达成一致的可能性。佩奇关于机器至高无上是自然且可取的观点,与马斯克认为这是一场必须抵制的存在性灾难的观点,根本无法调和。哈萨比斯的单体愿景需要一个基线共识:即赌注是巨大的,因此协调是必要的。佩奇不认同这个基线。

马斯克后来称安全委员会“基本上是扯淡”。苏莱曼在几年后回顾时承认:“我们在尝试建立委员会的方式上犯了很多错误,我不确定我们能否说它取得了明确的成功。”

关于整个努力,哈萨比斯最终得出了一个更阴暗的结论:“安全不在于治理结构……讨论这些事情并没有什么帮助。”

反攻

马斯克从 SpaceX 会议上带走的不是合作计划。而是情报。他现在近距离亲眼看到了 DeepMind 到底在制造什么以及它的进展有多快。而且他证实了,最有能力开发 AGI 的机构——拥有人才、资源和组织承诺的那个——控制在拉里·佩奇的手中,一个认为机器至高无上基本上没问题的人。

这是马斯克无法容忍的局面。

他以前尝试过直接的方法。当谷歌在 2013 年接触 DeepMind 寻求收购时,马斯克直接打电话给哈萨比斯,告诉他“AI 的未来不应该被拉里控制”,据报道,他还试图组建资金亲自收购 DeepMind——据其中一个说法,其中包括从洛杉矶派对上的一个壁橱里打了一个长达一小时的疯狂的 Skype 电话。但谷歌还是完成了交易。

SpaceX 会议之后,马斯克转向了萨姆·奥特曼(Sam Altman)。

2015 年 5 月 25 日,奥特曼给马斯克发了一封电子邮件,这封邮件在几年后成为了法律证据:“我一直在思考是否有可能阻止人类发展 AI。我认为答案几乎肯定是否定的。如果它注定要发生,那么让谷歌之外的人先做出来似乎更好。”

奥特曼提出了一种新型机构——一个在结构上效仿曼哈顿计划的非营利性 AI 实验室,该技术将“属于世界”,但如果成功,研究人员将获得类似初创公司的薪酬。其明确目的,是建立一个与 Google DeepMind 在顶尖 AI 人才和能力上近乎垄断的地位相抗衡的制衡力量。

在接下来的几个月里,马斯克、奥特曼和里德·霍夫曼仔细敲定了细节,最终招募了伊利亚·苏茨克维(Ilya Sutskever)——当时在 Google Brain 工作、世界上最受尊敬的深度学习研究员之一——作为联合创始人。OpenAI 于 2015 年 12 月公开发布,由奥特曼和马斯克共同担任主席,初始认捐资金为 10 亿美元。

马斯克后来写道:“创建 OpenAI 是作为一家开源(这就是我将其命名为 'Open' AI 的原因)、非营利公司,目的是作为谷歌的制衡力量。”

这次创立摧毁了什么

当哈萨比斯得知 OpenAI 的消息时,他感觉到了一种近乎背叛的滋味。马斯克似乎是带着善意参加了安全会议——然后利用在会议上收集的情报,建立了一个竞争性实验室,其创立的前提就是 DeepMind 是必须被反击的威胁。

马拉比指出了更深层的讽刺:马斯克表面上是出于对 AI 安全的担忧创立了 OpenAI,但通过这样做,他终结了哈萨比斯所主张的合作的全球方法剩下的任何可能性。单体场景——一个谨慎的、资源充足的实验室与人类合作开发 AGI——需要正是 OpenAI 的创立所摧毁的那种合作信任。一旦你有了两个资金充足、明确互为竞争对手的实验室,激励结构就改变了。速度变得至关重要。先发者将制定条款。竞赛,而不是谨慎,成为了主导逻辑。

马拉比着重强调了进一步的转折:一旦马斯克将 OpenAI 作为一家明确反谷歌、反哈萨比斯的企业推出,他就丧失了从内部监控 DeepMind 进展的能力。他所培养的非正式情报网络——董事会席位、友好的晚宴、安全会议——烟消云散了。他现在是竞争对手,而竞争对手是不分享他们所知道的情报的。

到 2015 年 12 月,AGI 发展中的主要参与者仍在相互交谈、仍参加同一会议、仍想象某种共同治理的短暂窗口期已经关闭。哈萨比斯设想的那个世界——建设 AGI 是一项由人类共同谨慎管理的集体人类工程——还没真正开始就已经结束了。

马拉比将这一章称为“走出伊甸园”。这个标题很贴切。堕落并不戏剧化。没有哪个单一的决定或背叛倾覆了一切。它是互不相容的世界观、竞争激励以及每一场军备竞赛所创造的结构性压力的累积:担心对方进展更快,担心你的克制会成为他们的优势,担心谨慎就是投降。

2016 年,马斯克私下写道,DeepMind 给自己带来了“极端的精神压力”。他担心,如果哈萨比斯的实验室率先实现 AGI,它将产生他所谓的“统治世界的一个大脑”——由单一机构控制的 AGI 独裁。他的解决方案是在比赛中增加另一个大脑。至于这是否让结果变得更安全,还是只是变得更快,马拉比巧妙地留下了一个悬而未决的问题。


第十章:P0 Plus Plus

穆斯塔法·苏莱曼的母亲是英国国民保健署(NHS)的护士。他在成长过程中看着母亲去医院上班,就像其他父母去办公室一样——制服、工作时间、其中的沉重感。当他最终置身于世界上技术最强大的组织之一 DeepMind,并问自己这种力量应该用来做什么时,答案很快浮现:做一些类似他母亲做的事情,但是要规模化。

这种情感并不是苏莱曼会用如此简单的框架来表达的。他在名声上并不是一个感伤的人——他是一个运营者,是当哈萨比斯在思考、列格在推导理论时那个把事情做成的人。但这种传记上的共鸣是不容忽视的,马拉比也没有漏掉它。那个将启动 DeepMind 雄心勃勃的社会应用,并将其置于优先级别(该级别实际上超过了谷歌工程词汇表中的最高类别——P0 Plus Plus,意味着比极其紧急的阻断问题更紧急,甚至超出了最高级别)的人,在某种程度上,是试图为曾经雇佣他母亲的机构做点什么。

值得解决的问题

苏莱曼需要一个与这些工具相称的问题。他在急性肾损伤(AKI)中找到了。

AKI——一种肾功能的突发、严重衰退——在英国医院每年导致多达 100,000 人死亡。如果能及时干预,大约 30% 的死亡被认为是可预防的。检测问题很奇特:表明肾脏恶化的血液测试结果会在抽血数小时后返回,散落在没有单个临床医生持续监控的系统中。由于相关数据停留在结果队列中等待有人查看,患者可能会从出现警告信号滑向危机。

技术解决方案并不复杂。如果你实时监控每一个传入的血液测试结果,并在数字跨越阈值时触发警报,你就能抓住系统遗漏的东西。挑战在于制度:正如苏莱曼公开指出的那样,NHS 医院“被技术严重辜负了”——仍然依赖寻呼机、传真机和纸质记录。技术上可行的东西与临床上部署的东西之间的差距,不是能力的差距。那是激励机制、惯性和 IT 基础设施的差距。

多米尼克·金博士(Dr. Dominic King)登场了。作为一名训练有素的普外科医生,金在帝国理工学院的 HELIX 中心(第一家嵌入欧洲医院的设计中心)度过了多年时光,在那里他开发了 HARK,一款旨在取代寻呼机的临床任务管理应用。它能起作用。但没关系。NHS 制度上的惯性使其几乎无法部署。金在 2015 年底给苏莱曼发了冷邮件。苏莱曼对金以临床医生为中心的设计理念印象深刻:技术必须服务于站在床边的人,而不是查看仪表盘的管理人员。DeepMind 于 2016 年初收购了 HARK,并将其整合到后来成为 Streams 的项目中。金成为 DeepMind Health 的临床主管。“离开医学界是一个很大的决定,”他说,“但我真的觉得这是一个让先进技术为患者、护士和医生服务的绝佳机会。”

Streams 做了什么

Streams 是一个智能手机应用程序。在医院病房里,它看起来很简单——护士手机上收到一个警报,包含患者的名字、验血数值、推荐的行动。在这个警报背后,是对医院整个电子病历系统进行的实时持续监控,结合国家 NHS 的 AKI 算法进行交叉引用,在患者结果超过风险阈值的那一刻触发通知。警报包括患者相关的测试历史和临床背景:采取行动所需的一切,从结果进入系统的那一刻起,不到一分钟就能传达。

皇家自由医院(Royal Free)部署该系统后的数字非常惊人。急诊病例的 AKI 识别率从 87.6% 上升到 96.7%。从验血结果可用到专家复核的平均时间降至 11.5 分钟——而以前可能需要几个小时。错过的 AKI 病例从约 12% 降至 3%。每位 AKI 患者的护理成本从 11,772 英镑降至 9,761 英镑——每位患者节省了超过 2,000 英镑。这些结果发表在同行评审的期刊上,由独立研究人员研究并确认:这项技术做到了它声称要做的事。

从最直接的意义上讲,Streams 正在拯救生命。问题在于构建它的代价是什么。

没人读过的协议

2015 年 9 月 29 日,谷歌英国有限公司与皇家自由 NHS 基金会信托签署了一份长达八页的信息共享协议。数据传输于 11 月 18 日开始——在任何关于该项目存在的公开声明之前。Streams 的实时测试于 12 月开始。

该协议实际涵盖的内容远远超出“一个 AKI 警报应用程序”。皇家自由医院授予 DeepMind 访问 160 万患者记录的权限——过去五年中使用该信托机构旗下三家医院的每一位患者。这些记录包括血液检查结果、艾滋病感染状况、药物过量和堕胎的详细信息、急诊就诊记录,以及与肾功能毫无关系的常规医院预约记录。在这 160 万份记录中,大约只有六分之一与 AKI 有合理的联系。

合同条款不仅允许 DeepMind 运行 AKI 警报,还允许建立“实时临床分析、检测、诊断和决策支持,以支持各种诊断和器官系统的治疗并防止临床恶化”——这是一个极其广泛的授权。这些数据将被用于一种名为“患者救援(Patient Rescue)”的项目,被描述为“一个为 NHS 医院信托机构启用分析即服务的概念验证技术平台”。尽管苏莱曼公开保证 Streams 中“没有 AI 或机器学习”,但该合同也允许了机器学习应用。

双方都声称在“直接护理”例外条款下得到了法律掩护——即当目的是为了特定患者的直接护理时,可以在没有明确同意的情况下使用患者数据。这个论点需要将概念扭曲到破裂。这 160 万人中的绝大多数并没有接受过 AKI 测试。许多人已经出院。有些人已经死亡。在数据传输开始之前,并没有进行隐私影响评估。自我评估是在 2015 年 12 月完成的,当时数据已经在谷歌控制的服务器上了。

清算

2016 年 4 月 29 日——在数据传输开始七个多月后——《新科学家》(New Scientist)发表了一项调查,揭示了实际发生的事情。公众对此一无所知。没有通知患者,没有同意机制,没有披露涉及记录数量的新闻稿。当分享的数据规模——160 万份记录,包括艾滋病诊断和吸毒过量史——变得清晰时,人们的反应是迅速而愤怒的。

英国信息专员办公室(ICO)进行了调查,并于 2017 年 7 月裁定,皇家自由 NHS 基金会信托未遵守 1998 年《数据保护法》。ICO 发现,患者“未充分获知处理正在发生”,数据量“过多、不必要且不成比例”,并且“直接护理”的法律基础不成立。该医院被要求签署一份承诺书,承诺对未来的任何项目进行严格的隐私影响评估。没有处以罚款——这种宽大处理受到了广泛批评。

最严厉的评估来自学术研究人员而不是监管机构。朱莉娅·鲍尔斯博士(Dr. Julia Powles)和哈尔·霍德森(Hal Hodson)在同行评审的《健康与技术》杂志上发表了一篇论文,称该交易是“算法时代医疗保健的警世故事”。他们的核心观察毫不留情:“医院派医生去开会,而 DeepMind 派的是律师和训练有素的谈判代表。”双方都未曾与“患者和公民进行过任何对话”,他们称这是不可原谅的。然后是那句精准捕捉到结构性问题的句子:“一旦我们的数据进入谷歌控制的服务器,我们追踪它的能力就结束了。”

DeepMind 的官方回应(值得肯定的是)真的很坦诚。“在 2015 年这项工作开始时,为了快速取得影响,我们低估了 NHS 的复杂性以及围绕患者数据的规则,”该公司写道。“我们几乎只专注于打造护士和医生想要的工具,认为我们的工作是面向临床医生的技术,而不是需要对患者、公众和整个 NHS 负责并由他们塑造的东西。我们弄错了。”

犯错的代价

这场丑闻造成的伤害不仅仅是 DeepMind 的声誉。它更是凸显了苏莱曼建立其职业生涯的应用人工智能项目核心的一个矛盾。

这项技术确实有效。拯救的生命是真实的。同行评审期刊中记录了每位患者护理成本降低 2000 英镑的事实。这些都没有争议。但是,DeepMind 获取数据以建立和训练该系统的手段,侵犯了这 160 万患者中每一位的合理期望——这些人来到医院接受护理,在脆弱的时刻提交了最敏感的信息,并在不知情的情况下被转移到了科技公司的服务器上。

苏莱曼职业生涯都在思考权力不对称——机构如何系统性地辜负它们所服务的人,技术如何被用来将这种不对称推向普通人而不是远离他们。NHS 数据丑闻证明,即使是对社会公益的真诚承诺,也不会自动产生社会公益所需的治理结构。为了拯救生命而快速行动,从一个角度看,像是迫切感。从另一个角度看,它就像是不问自取。

2018 年末,谷歌宣布 DeepMind Health 将并入一个新的谷歌部门。DeepMind Health 品牌被解散。苏莱曼建立的项目——那个他在内部列为优先级别超越最高级别的 P0 Plus Plus 项目——被他的企业母公司(他曾帮助促成对该母公司的收购)吞并。他被从日常领导岗位上撤换。

2019 年 8 月,在 DeepMind 员工抱怨其管理风格后,苏莱曼被行政休假。他后来表示:“我接受了反馈,作为 DeepMind 的联合创始人,我把人逼得太紧,而且有时候我的管理风格不够建设性。我毫无保留地向受到影响的人道歉。”他于 2019 年 12 月宣布离开 DeepMind。

这个共同创立了后来赢得诺贝尔奖的机构的人,并非在胜利中离开,而是陷入了一场关于他如何对待手下员工的争议中。他所追求的社会公益,到头来,却以一种复制了他试图纠正的机构失败的方式进行:快速行动,假定好意就足够了,却没有问受影响最深的人他们实际想要什么。


第十一章:智能体与 Transformer

2021 年,AlphaGo 的首席架构师大卫·席尔瓦在《人工智能》期刊上合著了一篇题为《奖励足够了》(Reward is Enough)的论文。该论点精准且广泛:最大化奖励的目标,就其本身而言,足以驱动表现出“大部分(如果不是全部)智能属性”的行为,包括感知、语言、社会智能和泛化。论文声称,认知所做的一切都可以被理解为在丰富环境中为了获得奖励而进行的优化。进化花了数百万年才找到这个解决方案。强化学习可以更快地到达那里。

这篇论文是 DeepMind 扎在领地里的哲学旗帜。同时,事后看来,它也是一座纪念碑,纪念着那份让 DeepMind 付出了数年时间的执念。

奖励的理由

哈萨比斯走向 AGI 的方法一直植根于他接受的神经科学训练。他在 UCL 研究过的海马体并不像查找表那样存储知识——它通过经验建立被压缩的、可泛化的世界模型。大脑通过行动和犯错来学习。奖励信号——成功后多巴胺的释放,失败后多巴胺的消失——随着时间的推移,将神经连接塑造成我们称之为“理解”的东西。这就是生物学的故事。强化学习是它的数学抽象:在环境中的智能体,采取行动,接受奖励,调整策略。

这不仅仅是一种技术偏好。这是一种心智理论。而 DeepMind 最大的几场胜利也加强了这一点。DQN 通过奖励精通了雅达利。AlphaGo 通过奖励和自我博弈精通了围棋。AlphaGo Zero 从零开始,仅凭奖励和自我博弈就超越了人类五千年来积累的所有围棋知识。这种模式非常一致,让人感觉这就是真理。

战略含义是,DeepMind 应该构建智能体——被置于环境中的系统,追求目标,通过性能压力发展出通用能力。而不是被训练去预测文本语料库中下一个词的系统。那是模式匹配,不是智能。

通才问题

在 2010 年代中后期占据 DeepMind 应用强化学习团队的研究问题是泛化(generalization)。DQN 的结果令人印象深刻,但它为每一款雅达利游戏从头训练了一个单独的网络。它无法将它在《打砖块》中学到的东西转移到《太空侵略者》中。每次部署都是一张白纸。这不是大脑的工作方式。目标是建立能够跨领域携带知识的智能体。

科拉伊·卡武克库奥卢——DeepMind 最早的研究员之一,Yann LeCun 的博士生,那个目前被引用次数超过 290,000 次的人——领导了其中大部分工作。2016 年发布的异步优势演员-评论家(A3C)系统在不同环境中并行运行多个智能体,将梯度发送回共享网络。第一次,单个架构在所有 57 款雅达利游戏上同时实现了强劲性能,并且在 3D 迷宫导航和连续运动控制方面也取得了成功。相同的算法,相同的网络结构,不同的环境。

然后,在 2018 年出现了 IMPALA(重要性加权演员-学习器架构)——这是迄今为止最认真的尝试。单个网络在 DMLab-30 的所有 30 个任务上进行训练:3D 导航、记忆挑战、基于语言的觅食、对象交互、指令遵循。结果显示了一些令人信服的东西。在许多任务上进行训练并没有让智能体在单个任务上表现变差——而是让它变得更好。通才超越了专才。正向迁移是真实存在的。

与此同时,Oriol Vinyals 及其 AlphaStar 团队正在攻克《星际争霸 II》,这是一个让此前所有尝试都相形见绌的难题。与国际象棋或围棋不同,《星际争霸》具有不完全信息、每秒 22 个动作的实时执行、需要同时控制数百个单位,以及跨越三个独立种族的真正战略多样性。AlphaStar 使用了一个“联赛”训练系统——一个多样化的智能体生态系统,包括旨在寻找弱点的专门“剥削者”智能体——甚至在强化学习开始之前就进行了人类回放数据的训练。2019 年 1 月,它在现场比赛中击败了职业选手。它的神经架构结合了类似 Transformer 的注意力机制,让智能体能够同时推理不同的单位。

最后那个细节绝非巧合。到 2019 年,在谷歌这座大楼另一边发明出来的架构——在 Google Brain,而不是 DeepMind——开始无处不在。

走廊里的八位作者

2017 年 6 月 12 日,谷歌的八名研究人员在 arXiv 上发布了一篇题为《注意力机制就是你所需要的一切》(Attention Is All You Need)的论文。作者名单经过刻意随机化——他们拒绝传统的地位排序,将自己列为同等贡献者。最年轻的 Aidan Gomez 是多伦多大学 20 岁的实习生。在技术上最核心的 Noam Shazeer 自 2000 年起就一直在谷歌工作,并共同发明了稀疏门控专家混合(sparsely-gated mixture of experts)技术,这项技术将成为大规模 LLM 的关键。至于“Transformer”这个名字,被选用的原因仅仅是因为 Jakob Uszkoreit 喜欢它的发音。

他们正在解决的问题是序列建模中一个基本的瓶颈。当时的统治性架构是 LSTM——一种循环神经网络,按顺序一个词一个词地处理文本。要理解第 10 个词,你必须先处理完第 1 到第 9 个词。这使得训练本质上变成了顺序的,不可能在现代 AI 运行的 GPU 硬件上并行化。正如 Shazeer 后来的总结:“在今天的硬件上,算术运算很便宜,而移动数据很昂贵。”

Transformer 完全摒弃了循环。取而代之的是:自注意力机制。在这种机制中,句子里的每一个词都同时直接看向其他每一个词,计算出一个相关性得分,以此决定该对每一个词分配多少注意力。整个句子被同时并行处理。多头注意力(Multi-head attention)并行运行多次这一操作,让模型能同时关注句法、语义和长距离依赖关系。结果是:不仅仅是更好的翻译质量,而且训练的规模与算力呈线性扩展。

Jakob Uszkoreit 相信这会成功。他自己的父亲,Hans Uszkoreit——一位著名的计算语言学家——则持怀疑态度。放弃循环机制的想法让人感觉像是在放弃时间机制本身。而当 Shazeer 第一次听到这个提议时,他的反应则是他标志性的直接:“当然行!”

在 WMT 2014 英德翻译基准上,Transformer 获得了 28.4 的 BLEU 得分——超越了之前所有的模型。在英法翻译上:41.8 BLEU,在 8 个 GPU 上训练了 3.5 天。NeurIPS 的审稿人们立即表现出极大的热情;一位审稿人指出它“已经是社区里谈论的焦点”。

在不到五年的时间里,这篇论文积累了超过 173,000 次引用——跻身跨越所有领域的 21 世纪被引用次数最多的十篇科学论文之列。Transformer 成为 GPT、BERT、PaLM、Claude、Gemini 以及之后所有大型语言模型的基础。

谷歌拱手相让的架构

马拉比深思的讽刺是绝妙的。Google Brain 发明了这个架构。谷歌将其公开发表。然后,所有八位作者都离开了谷歌。

其中六位创办了初创公司。Vaswani 和 Parmar 联合创办了 Adept AI。Shazeer 联合创办了 Character.AI——后来谷歌支付了约 27 亿美元才将他拉回来。那位 20 岁的实习生 Aidan Gomez 联合创办了 Cohere。Uszkoreit 创办了 Inceptive。Lukasz Kaiser 去了 OpenAI,帮助构建了最终让谷歌措手不及的模型。这六位创始人总共从外部投资者那里筹集了 13 亿美元。其中两家公司成为了独角兽。

谷歌内部发明的架构为威胁谷歌的竞争对手提供了动力。公开的论文发表正是促成这一结果的机制。

但在 DeepMind 内部,还存在着第二层讽刺。Transformer 并非由 DeepMind 发明。它是 Google Brain 发明的。多年来,这两个组织像两个在同一个企业屋顶下的平行研究组一样运作,保持着明确的机构分离和内部人士所称的“几乎不加掩饰的相互鄙视”。一位前 DeepMind 研究人员后来说,同事们“因为与 Brain 合作写论文而惹上麻烦,因为人们的想法是,‘你为什么要跟 Brain 合作?’”。学术上的分歧不仅存在于组织上,更是哲学层面的。

深刻的分歧

哈萨比斯理解 Transformer。他的立场不是无知——而是关于智能究竟需要什么,存在着原则性的分歧。

他在这一时期的采访中一致表达的论点是:Transformer“在它们的作用范围内有效得几乎不讲道理”——但它们可能不足以实现 AGI。它们缺少的是他所谓的“世界模型”:对现实的内部因果表征,它能让智能体进行规划、进行反事实推理、理解物理结果并泛化到真正全新的情境中。在他看来,LLM 是异常强大的模式补全器。它们学习语言中的统计规律。但是,语言数据中的统计规律,并不等同于对语言所描述的世界的理解。

《奖励足够了》这篇论文则是从另一个方向提出的同一个论点:智能是在丰富环境中为了获得奖励而进行优化时得到的东西。预测下一个标记——即语言模型训练的实质内容——并非如此。那是某种其他的东西:很复杂、很有用、甚至令人惊叹。但它不是通向 AGI 的路径。

这种信念是连贯的,是站得住脚的。它也与 DeepMind 过去的记录一致。但这让实验室付出了从 2018 年到 2022 年这几年时间的代价,在这期间,OpenAI 悄悄构建了规模化基础设施、数据流管道以及 RLHF 训练技术,最终将 Transformer 从一个研究成果变成了 ChatGPT。

当马拉比就此追问哈萨比斯时,后者做出了部分但真实的承认。“我们在自监督和深度学习方面一直有惊人的前沿工作,”哈萨比斯在一次采访中说,“但也许工程和规模化部分——我们本来可以做得更早、更努力。”在其谨慎的言辞中,这承认了机构层面上的一项战略误判。

Gato 与大融合

在 ChatGPT 面世六个月前的 2022 年 5 月,DeepMind 发表了题为《一个通才智能体》(A Generalist Agent)的论文,介绍了一个名为 Gato 的模型。同样是 12 亿参数的 Transformer,共享同一套权重,执行了 604 项不同的任务:玩雅达利游戏、给图像加字幕、进行对话、用物理机械臂堆叠积木、在 3D 环境中导航。核心技术突破是“序列化”:图像、机器人关节角度、文本、游戏手柄的所有模态都被转换成相同格式的一维标记序列。然后,Transformer 预测下一个标记,完全像语言模型所做的那样。对于网络而言,机械臂、雅达利游戏和字幕任务都是同一种预测问题。

Gato 是 DeepMind 终于将 Transformer 全面整合进其通才智能体研究的成果。从某种意义上说,它同时证实了两个阵营的观点:通过 Transformer 架构(通用序列预测)实现的强化学习泛化假说(单一系统,多种任务)。

它的表现是称职的,但远非超人级别——在许多任务中,Gato 的表现处于专家基准的 50% 以上,其广度令人印象深刻,但在深度上不及专家模型。批评者认为,在许多事情上表现平庸,并不是他们所关注的灵活的智能。但架构层面的论证是真实的:一套权重可以同时跨越机器人控制、图像理解、语言和游戏。

然后 ChatGPT 发布了。世界发现,一个 Transformer 不需要去控制机械臂或玩雅达利,就能创造出在几亿人看来感觉像真正通用智能的东西。

DeepMind 发明了通才智能体理论。Google Brain 发明了架构。OpenAI 将两者结合——对大规模 Transformer 应用基于人类反馈的强化学习(RLHF)——并首先将其推向了公众。这种知识层面的融合,发生在大楼之外,而在大楼里面,这两半人曾花了近十年时间拒绝合作。


第十二章:论语言与自然

2016 年 9 月,由 Aaron van den Oord 领导的一支 DeepMind 团队发表了一篇论文,描述了一个能够直接从原始音频波形合成人类语音的系统。在盲听测试中,WaveNet 将当时最先进的文本转语音技术与真实人类语音质量之间的差距缩小了 50% 以上。它还可以生成音乐——同一套用于语音的架构能自发生成钢琴曲。

这结果很惊艳。真正具有重大意义的是它的方法。

WaveNet 抛弃了语音合成领域几十年来积累的一切:音素字典、声学声码器、基于人类声道发声原理由第一性原理推导出的信号处理模型。取而代之的是,它逐时间步、每个样本基于之前所有样本来对原始音频波形(每秒 16,000 个样本)进行建模。这里的技术创新是空洞因果卷积(dilated causal convolutions):这是一种叠加卷积层并使其间距呈指数增加的方法,从而使模型在时间上的有效窗口随着深度的增加呈指数级增长。结果是:系统能够捕捉语音的长期时间依赖性,而根本不需要被告知什么是语音。

研究人员自身也对结果感到意外:“能用深度神经网络直接对 16kHz 的音频进行逐时间步生成,并且竟然成功了,这真的令人非常惊讶。”他们不是从语音理论中推导出 WaveNet 的。他们将一种通用的顺序预测框架应用于原始数据,并发现它比人类精心设计了几十年的声学模型表现更好。

波形与序列

WaveNet 所证明的原理并不局限于音频。Van den Oord 之前在一篇名为 PixelRNN 的论文中就已经在图像上证明了这一点:将每个像素视为一个基于之前所有像素来预测的值。同一种分解法——将任何高维信号的联合概率表示为其各元素按顺序排列的条件概率乘积——适用于图像、音频,以及第二年通过 Transformer 论文所证明的语言。

更深层的论点涉及认识论:无论多么复杂的自然信号,都包含可学习的统计结构。你不需要理解这个领域。你需要的是足够的数据和一个具有足够容量来对序列依赖关系进行建模的网络。工程师们花了其职业生涯编码进 AI 系统的领域知识——语音规则、声学物理学、语法结构——结果证明是不必要的。结构就在数据之中。

这一洞见最终延伸到了生物学领域。

蛋白质就是一个句子

在最基本的层面上,蛋白质就是一串字符。20 种标准氨基酸每一种都被分配了一个字母——A、C、D、E、F 等等——一条蛋白质序列就只是这些字母构成的字符串,通常有几百到几千个字符长。一个由 300 个氨基酸组成的蛋白质,就是一个由 20 个字母表构成的、长度为 300 个字符的句子。

更重要的是,它是一份信息完备的说明书。这是安芬森定理(Anfinsen's theorem)——克里斯蒂安·安芬森(Christian Anfinsen)因此获得 1972 年诺贝尔化学奖的见解:蛋白质完整的的三维结构以及它的生物功能,完全由其氨基酸序列决定。不需要任何其他东西。序列不是蛋白质的摘要;它就是蛋白质的完整说明书,以线性形式编码。如果你知道如何阅读这个序列,你就能重建关于这个分子的一切。

加载中…

有价值, 值得做, 值得我做

· 阅读需 4 分钟

“如果 GUI(图形用户界面)注定要死,那么让我们先回到它出生的地方,看看它是如何教会我们关于‘选择’的最残酷一课。”

帕洛阿尔托的幽灵

2023年,LLM 基础模型横空出世,新一轮工业革命的大幕被粗暴地拉开。一夜之间,所有人都笃定地告诉你:未来的交互属于 LUI(语言用户界面),传统的 GUI 已经过时了。

在这个令人焦虑的时刻,我想带你穿越回 1979 年的加州帕洛阿尔托。那里不仅诞生了 GUI,更上演了一场关于“什么有价值、什么值得做、什么值得我做”的商业悲剧,至今仍是每一位企业家的必修课。

那个地方叫 Xerox PARC(施乐帕洛阿尔托研究中心)

当时的 PARC 聚集了世界上最聪明的计算机科学家。他们在一个满是命令行的黑白世界里,创造出了神迹:Alto。这是世界上第一台拥有图形界面的个人电脑。它有鼠标、有窗口、有图标,甚至有以太网。

这就是第一层滤网:什么有价值? 毫无疑问,GUI 有价值。它极大地降低了人机交互的门槛,把计算机从科学家的玩具变成了普通人的工具。这是一项改变人类文明进程的发明。PARC 的天才们做到了。

紧接着是第二层滤网:什么值得做? 从商业逻辑上看,这绝对值得做。这是一个万亿级的市场雏形。如果当时有人能把这项技术推向大众,回报将是天文数字。

但故事在这里发生了著名的断层。

当施乐总部的那些衣冠楚楚的高管们从东海岸飞过来视察时,他们看着这台划时代的机器,问出了一个让工程师心碎的问题: “这东西怎么帮我们卖出更多的碳粉和复印机?”

你看,这就是第三层滤网:什么值得“我”做? 施乐是一家复印机公司。在他们的基因里,商业模式是“卖昂贵的机器,然后通过耗材源源不断地赚钱”。而 GUI 和个人电脑带来的“无纸化办公”愿景,本质上是在革施乐自己的命。 对施乐来说,GUI 虽然有惊天价值,虽然值得全人类去做,但不值得“施乐”做。因为这与他们的核心优势、商业模型和组织基因完全背道而驰。

结局我们都知道了。 一个叫史蒂夫·乔布斯的年轻人走进了 PARC。他没有“卖碳粉”的包袱。他看到的是“思维的自行车”。 对乔布斯和苹果来说,这三点完美重合:

  1. GUI 有价值(颠覆体验);
  2. GUI 值得做(商业前景广阔);
  3. GUI 值得“苹果”做(符合苹果追求极致易用性和挑战IBM霸权的基因)。

于是,施乐发明了未来,而苹果拥有了未来。

你的 LUI 时刻

回到 2025 年的今天。 当你在看新的 AI 浪潮,看那些眼花缭乱的 LUI 应用、Agent 智能体时,请不要只看到技术的价值。现在的技术确实都很牛,能写诗、能画画、能写代码。

也不要只看到这事值得做。是的,AI 确实会重塑千行百业,就像当年的 GUI 一样。

真正决定你生死的,是那个施乐高管曾面对、却没答好的问题:这事值得“你”做吗?

在这个充满噪音的时代,在这个人人都在追逐风口的当下,最大的勇气不是敢于这就去做,而是敢于承认“这虽是金矿,但不是我的金矿”。

愿你能看清潮水的方向,更看清自己的航向。 不要做那个守着宝藏却饿死的施乐,也不要盲目地成为乔布斯的炮灰。找到那个既能改变世界、又能让你的灵魂和天赋燃烧的交集点。那,才是属于你的传奇。

AI 2041:通往十个未来的旅程

· 阅读需 50 分钟

理解愿景

《AI 2041:我们的十个未来愿景》代表了两位杰出人物的雄心勃勃的合作:一位是拥有30多年人工智能领域开创性工作的世界顶尖AI专家李开复,另一位是屡获殊荣的中国科幻作家陈楸帆(Stanley Chan)。这本书于2021年9月出版,全书480页,它没有提供关于机器人霸主或超级智能机器的疯狂猜测。相反,它呈现了更有价值的东西:基于未来20年内有超过80%可能性实现的技术,构建出的现实场景。

这本书的结构非常巧妙。十章中的每一章都将陈楸帆的一篇虚构短篇故事与李开复的一篇分析性文章配对。这些故事设定在全球各地,从孟买到拉各斯,从东京到旧金山,讲述了真实的人们在2041年面对的现实困境。随后的文章则解释了背后的科学原理,讨论了这些技术是什么,它们如何工作,以及它们对社会意味着什么。李开复刻意专注于现实的近期发展,而不是推测性的人工通用智能(AGI),他认为,“即便没有或很少有突破,人工智能仍将对我们的社会产生深远的影响。”

金色大象:当算法强化古老的偏见

2041年的孟买,在象神节庆祝期间,少女纳亚娜(Nayana)生活在一个被深度学习改变的世界里。她的家人最近购买了“象神保险”,这是一个由人工智能驱动的计划,极大地降低了他们的保费。但代价是,他们必须分享所有个人数据,并使用一套特定的应用程序来处理一切事务——投资、购物、健康监测,甚至喝水提醒。

起初,这个系统运行得非常出色。应用程序会发出有益的提醒:喝水、慢点开车、戒烟。每一个健康决策都会让保费下降。纳亚娜的父亲彻底戒了烟。这家人将这些建议视为仁慈的指导,感激地接受了这个看似有利的安排。

然后,纳亚娜对在虚拟学校认识的同学萨赫(Sahej)产生了兴趣。当学生们做“展示与讲述”演示时,萨赫分享了他对制作面具的热情,透露了一些在传统课堂上不会出现的个人生活细节。纳亚娜被他吸引,但她的家庭保险费立即飙升。

当流言揭示萨赫是达利特人(Dalits)的后裔时,紧张关系爆发了。达利特人在印度种姓制度中历来被视为“不可接触者”。纳亚娜的母亲为了让保费保持在可控范围内,向她施压,要求她避开萨赫。尽管母亲的初衷是好的——想为孩子们提供更好的生活——但她的论点揭示了一个令人不安的现实:为了维持他们的生活方式,必须做出这样的权衡。

在一次关键的对话中,萨赫雄辩地解释了正在发生的事情。人工智能并没有被明确编程输入印度种姓制度的知识,但它从数据模式中学习到,与来自较低种姓的人交往与某些风险相关。也许是经济不稳定、社会孤立或健康因素。该算法通过最大化其狭隘的目标——最小化保险风险——来延续社会偏见。它通过纯粹的数学学会了带有偏见。

纳亚娜面临着在算法控制和个人能动性之间的选择。她决定反抗,选择探索她与萨赫的关系,尽管这会带来社会和经济上的反弹。她的选择申明了一些根本性的东西:人类的自主权比优化的保费更重要。

李开复的文章引入了**“人工智能外部性”**这一关键概念——即人工智能系统为优化狭隘目标而产生的意想不到的后果。社交媒体算法为了最大化用户参与度而强化偏见和负面情绪。保险人工智能通过检测相关性而 perpetuates 种姓歧视,却不理解因果关系或背景。这些在有偏见的数据上训练出来的系统,在看似客观的同时放大了现有的不平等。“黑箱”的特性使得偏见难以识别和纠正。

深度学习通过多层人工神经网络模仿人脑功能。通过输入大量关于用户行为、健康指标、购物、位置和社交关系的数据,多层神经网络能够识别出人类可能忽略的模式。李开复预测,到2041年,人工智能将比用户更了解他们自己。行为引导将变得复杂且难以察觉,通过互联的数据服务,存在产生“社会信用”体系的风险。这一章提出了关于隐私与便利、以及当别无选择时“知情同意”是否还有意义等根本性问题。

面具之后的神灵:真相死于深度伪造的拉各斯

在2041年的拉各斯,面具对年轻人有两个用途:时尚配饰和规避监控的设备。雅巴(Yaba)区作为尼日利亚的“硅谷”蓬勃发展,而人脸识别摄像头则从每个角落监视着一切。清洁机器人在街上漫游收集垃圾。这是一个充满对比的城市——挣扎的大多数和富裕的科技区。

阿马卡(Amaka)是一位年轻的视频制作人兼技术娴熟的程序员,专门从事深度伪造(deepfake)创作。故事开始前两天,他收到一封来自“Ljele”的匿名邮件,提供了一份“正合他意”的工作。他戴着一个3D打印的蝴蝶图案面具出现——虽然不如莱基市场(Lekki Market)昂贵的手工版本精致,但足以骗过大多数监控摄像头。他使用智能流设备,在前往面试的路上将虚拟路线图叠加在街景上。

Ljele是“伊博荣耀”(Igbo Glory)的幌子,该组织代表尼日利亚复杂种族划分中的伊博族(Igbo)社群。他们想让阿马卡制作无法检测的深度伪造视频,以操纵公众舆论,使其对伊博社群有利——具体来说,是一个伪造的尼日利亚著名政治家承认不当行为的视频。

如果阿马卡拒绝,他们就会发布他们自己制作的深度伪造视频,显示他在夜总会亲吻另一个男人。在尼日利亚的保守社会中,这可能会让他根据反同性恋法入狱,并毁掉他的家庭。

阿马卡学会了使用生成对抗网络(GANs)——两个神经网络在一个“零和游戏”中竞争。一个网络(生成器)创造伪造品。另一个网络(鉴别器)试图识别它们。它们反复对抗,生成器创造出越来越逼真的伪造品,而鉴别器则在检测方面不断提高。这个对抗过程持续进行,直到伪造品与真实无法区分。到2041年,GANs已经足够复杂,可以创造出完美的深度伪造品:面部表情与情感背景相匹配,光照和阴影恰当,口型同步正确,身体语言自然,甚至包括人类下意识解读的微表情。

阿马卡在多种压力之间挣扎:对成功的雄心、对煽动暴力的道德担忧、对个人后果的恐惧,以及关于种族认同和忠诚的问题。他做了一个生动的梦,梦到了FAKA,这是已故音乐家、传奇的尼日利亚活动家费拉·库蒂(Fela Kuti)的在线化身,他以向权力说真话而闻名。这次精神上的相遇促使他对真实与欺骗进行了深刻的反思。

随着最后期限的临近,阿马卡做出了他的选择。他抛弃了他的面具——无论是字面上的还是比喻上的——选择了真实,而不是欺骗所提供的权力和保护的诱惑。尽管面临个人风险,他还是对抗了那个组织,拒绝了他们的提议,决定用他的技术技能来讲积极的故事,而不是进行操纵。这是一场良知战胜胁迫的道德胜利。

李开复的文章解释了为什么这很重要。到2041年,制作令人信服的深度伪造视频将像使用照片滤镜一样简单。即使经过法医分析,近乎完美的伪造品也将与真实无法区分。实时生成技术将能够在视频通话中即时制作出令人信服的深度伪造品。完美的声音克隆技术将能从极少的音频样本中复制任何人的声音。全身深度伪造将能捕捉整个身体的动作。多模态伪造将能协调视频、音频和文本,构成完整的虚假叙事。

其社会影响是惊人的。通过伪造政治家发表煽动性言论的视频进行政治操纵。通过在特定时间发布令人信服的虚假内容来干预选举煽动种族和宗教,就像阿马卡的故事中那样,伪造的视频可能引发暴力。针对个人的敲诈勒索。对视觉证据作为证明的根本性挑战。“眼见为实”将变得过时。人们可能会将真实的证据斥为伪造——即**“骗子的红利”**。确定客观真相变得几乎不可能。

检测技术总是落后于创造技术。法医分析寻找伪影和不一致之处。区块链验证创建可认证的保管链。水印技术在真实内容中嵌入不可见的标记。人工智能检测工具发现AI生成的内容。但规避总是可能的,而且大多数人缺乏进行验证的技术专长。

双子麻雀:当童年被优化

2041年,在韩国的“源泉学院”(Fountainhead Academy),一对父母在车祸中丧生的三岁同卵双胞胎男孩来到这里。学院的院长兼vPals(虚拟伙伴)技术的先驱金妈妈(Mama Kim)给他们取名为金麻雀(Golden Sparrow)和银麻雀(Silver Sparrow)。尽管是双胞胎,他们的个性和学习方式却截然不同。

学院允许孩子们使用自然语言处理技术设计自己的人工智能伴侣,作为导师、老师和向导。金麻雀争强好胜、早熟,他根据自己最喜欢的超级英雄创造了Atoman。Atoman用游戏化和奖励来激励他。银麻雀内向,属于自闭症谱系,拥有惊人的艺术天赋,他创造了Solaris,一个无定形的阿米巴状AI角色。AI诊断出银麻雀有88.14%的概率患有阿斯伯格综合症。

六岁时,金麻雀被朴(Pak)家收养,他们的座右铭是“只有最好的才配得上最好的”。他们不断升级Atoman以确保适当的挑战。Atoman甚至创造了一个AI生成的女生来通过竞争激励金麻雀。随着年龄的增长,他的人际交往能力萎缩,而他以表现为中心的生活则愈发紧张。

银麻雀被安德烈斯(Andres)和雷(Rei)收养,他们是一对跨性别伴侣,在一场比赛中被他的艺术作品所吸引。他们采取了更人性化的方法,只将技术作为整体教育的一部分。尽管(或者正因为)他患有自闭症,银麻-雀学会了同理心并发展了创造力。

一次晚餐谈话凸显了哲学上的分歧。朴先生告诉安德烈斯和雷:“没有人比他的人工智能更了解儿子……金麻雀的数学已经达到了十岁孩子的水平。”雷质疑为什么朴家让AI规划他们孩子的未来。朴太太反驳说,虽然她理解他们有“一种更浪漫的看法”,但没有什么比孩子的教育更重要。

转折点发生在金麻雀出于嫉妒破坏了银麻雀的艺术创作,造成了情感上的动荡。这一行为造成了裂痕。金麻雀的心理学家后来指出了关键的一点:“人类不是人工智能。” 朴先生最终意识到,他对“成功”的看法正在让金麻雀痛苦不堪。

多年后,双胞胎在源泉学院重逢。通过AI技术,他们发现尽管情感上疏远,他们的纽带依然存在。这次重逢是金妈妈的程序员们有意为之的设计,呼应了早期硅谷对技术将人们联系在一起的乐观主义。

李开复解释了自然语言处理如何使这些AI伴侣成为可能。GPT-3拥有1750亿个参数。语言模型大约每年增长10倍,每年吸收的数据量也增加10倍,并且每个数量级都有质的提升。到2041年,或许“GPT-23”将读过有史以来写下的每一个字,看过制作的每一段视频——成为一个包含人类历史累积知识的“全知序列转换器”。

这项技术使孩子们能够通过与虚拟的阿尔伯特·爱因斯坦和斯蒂芬·霍金互动来学习科学。AI擅长为每个学生定制学习内容,通过针对特定弱点来激励他们。像芭比娃娃或特种部队(GI Joe)这样的经典玩具将“活过来”,与孩子们自然地交谈。

然而,李开复明确表示,他并不预测到2041年会出现通用人工智能(AGI)。 计算机的“思考”方式与人脑不同。到2041年,深度学习不会成为真正的“人工通用智能”。许多挑战仍未解决:创造力、战略思维、推理、反事实思维、情感和意识。这些需要“十几个像深度学习那样的突破”。既然AI在60多年里只有一个重大突破,要在20年内看到十几个是不太可能的。AI将无法真正地爱我们。

教师的角色将发生转变。他们将更少地关注死记硬背的知识传授,更多地关注培养情商、创造力、品格、价值观和韧性。当学生困惑时,教师成为澄清者;当学生自满时,教师成为对抗者;当学生沮丧时,教师成为安慰者。这需要“AI无法做到的智慧和理解水平”。

这一章是对当前教育体系的评论,这些体系利用竞争作为激励手段,以及将孩子视为优化项目的强迫性育儿文化。故事表明,过度优化可能导致孩子在学业上出类拔萃,但缺乏情商和社交技能。技术成为限制儿童自主权的又一个工具,而不是促进他们发展的工具。正如金麻雀的故事所展示的,仅仅关注成就会让孩子痛苦。

无触碰的爱:当恐惧成为囚笼

2041年的上海,陈楠(Chen Nan)在她的公寓里过着与世隔绝的生活。她代表了“新冠一代”——因与COVID-19相关的创伤记忆和损失而对人际接触怀有深深的恐惧。在最初的疫情爆发二十年后,大流行病仍以持续的变种形式存在。尽管有机器人设备管理日常生活,陈楠的心理创伤使她无法参与现实世界的关系。

陈楠经历着焦虑和噩梦。她患有创伤后应激障碍(PTSD),拒绝离开她的公寓。她的疫苗已经过期,这造成了一个两难境地:她害怕出门,但因为她没出去,她的疫苗已经过期,这使得外出变得更加危险。

陈楠有一个在巴西圣保罗的远距离男友加西亚(Garcia)。他们的关系在虚拟现实游戏中蓬勃发展,他们在那里分享有意义的经历和深厚的感情。虚拟世界提供了一个安全的空间,陈楠可以在那里体验亲密关系,而无需面对她对身体接触的恐惧。

当加西亚表示希望在现实中见面时,陈楠的恐惧导致她拒绝了这个机会。然后加西亚沉默了,停止了所有交流。当陈楠得知加西亚因一种新的COVID变种而患上严重疾病并住院时,她的担忧急剧升级。她意识到,她必须挣脱自我施加的孤立,去支持她所爱的人。

在管理她日常需求的家用机器人、包括一个兼作疫苗护照和追踪健康信息的可穿戴皮肤植入物、防护设备、自动配送系统以及用于交通的AI驱动机器人的帮助下,陈楠多年来第一次 venturing 出门。她的旅程凸显了社会如何适应性地使用技术来最小化物理互动,同时促进联系。

在故事的结尾出现了一个转折,原来整个情况都是加西亚精心策划的——一种“游戏化治疗”——以鼓励陈楠面对她的恐惧并克服她的创伤后应激障碍。故事以一次感人的重逢告终,陈楠承认了她对加西亚的爱,这象征着她的个人成长和疗愈。

李开复解释了大流行如何极大地加速了人工智能和机器人技术的采用。DeepMind的AlphaFold 2使用AI和深度学习进行蛋白质折叠——传统上需要数年时间,但现在可以更快地完成,结果也更准确。李开复将此描述为“科学史上最杰出的成就之一”。到2041年,AI可以帮助在3D结构上找到靶点,并选择最佳的生物分子。传统的药物开发成本为10亿美元,需要数年时间;AI极大地降低了这两者。Insilico Medicine于2021年宣布了首个由AI发现的药物,节省了90%的成本。

在2012年至2018年间,机器人辅助手术的比例从1.8%增加到15.1%。预计到2041年,纳米机器人将能在没有人类医生的情况下完成完整的手术,对抗癌症,修复受损细胞,并通过替换DNA分子来消除疾病。AI将“通过人机共生彻底改变医学”,优化和改造药物发现、病理学和诊断。一些专家认为,人们的寿命可能会比当前预期寿命长20年。

大流行创造了一个完全无接触的社会。AI传感器、与面部识别配对的红外热像仪检查口罩佩戴情况。摄像头系统观察社交距离。基于AI的聊天机器人筛选症状并教育患者。机器人在医院和公共区域进行消毒。配送机器人在医院和公共场所运作。

但这有一个更黑暗的含义。相当一部分人,特别是在大流行期间成年的人,将倾向于减少面对面接触的生活方式。最初为健康而采纳的社交距离变成了常态化的行为。陈楠的存在说明了未来由技术促成的孤立生活可能加剧。

故事质疑了那些使我们能够避免恐惧的技术是帮助我们还是伤害我们。陈楠的旅程表明,在技术的帮助下,而不是被技术取代,直面恐惧,是通往疗愈和真正人类联系的道路。技术应该增强人类的能力,而不是取代人类的联系。

萦绕我心的偶像:数字完美的代价

2041年的东京,一个名叫爱子(Aiko)的害羞音乐迷与朋友们参加了一场降神会,试图联系在神秘情况下死亡的流行虚拟偶像Hiroshi X的灵魂。通过一个灵媒,Hiroshi的声音恳求帮助,声称他的死并非表面看起来那样。

爱子通过Hiroshi的音乐与他有着深刻的、近乎痴迷的联系,他的音乐是她一生中慰藉的源泉。她与心理健康问题和被忽视的感觉作斗争,并将这些感觉投射到她的偶像身上。她的迷恋反映了一种她觉得超越了普通粉丝关系的纽带。

利用先进的**XR(扩展现实)**技术——包括VR(虚拟现实)、AR(增强现实)和MR(混合现实)——爱子探索了Hiroshi死亡的情景。她通过AI驱动的重建,在各种虚拟环境中召唤Hiroshi的“鬼魂”。随着她的调查,这些相遇模糊了现实与数字身份之间的界限。李开复将XR描述为“就像睁着眼睛做梦”。

爱子了解了Hiroshi与他生命中人——他的经理、团队成员和娱乐产业——之间复杂的动态关系。叙事揭示了名声的阴暗面、行业压力以及偶像们维持的艰难关系。随着线索的拼凑,爱子发现Hiroshi并非如报道所说溺水身亡,而是被毒死的。调查揭示了他的心理健康挣扎以及来自粉丝和娱乐产业的巨大压力。

在与Hiroshi的虚拟鬼魂的对峙中,爱子得知他对联系和被接纳的渴望最终导致了他的悲剧结局。Hiroshi对名声、身份和对真实性需求的思考贯穿了爱子的整个旅程。她对拟社会关系(parasocial relationships)和现代粉丝文化的黑暗影响有了深刻的理解。

本章结尾,一家科技公司为爱子提供了一个在虚拟空间中合作进行叙事创作的机会。这个决定反映了她从被动粉丝到主动创作者的演变,象征着她希望重新掌握对自己故事和他人故事的主导权。

李开复解释说,到2041年,AI将开辟沉浸式娱乐的新世界,提供与现实世界无异的虚拟体验。现实生活、远程通信、游戏和电影之间的界限将完全模糊。VR将通过让孩子们与虚拟的阿尔伯特·爱因斯坦和斯蒂芬·霍金互动来教他们科学。VR将为创伤后应激障碍(PTSD)等精神问题设计专门的治疗方案。在VR中,AI将制造出完全逼真的伴侣;作为机器人,他们将变得越来越真实。

**脑机接口(BCI)**使与虚拟环境的直接神经互动成为可能,允许用户通过思想来控制和体验XR。生物特征数据提供关于生理和情绪状态的实时信息。生成式AI创造出超逼真的虚拟名人,他们可以以个性化的方式与粉丝互动,从而实现前所未有的拟社会关系。

但李开复强调了一个关键的限制:虽然AI可以创造出极其逼真的体验并作为伴侣,但它无法真正地爱人类。 这个限制是提出的伦理问题的核心。

故事探讨了有毒的粉丝文化如何通过超逼真的虚拟互动得到扩展和放大。技术可能使个人与真实的人际关系疏远,而不是促进它们。存在对虚拟体验上瘾的风险,人们可能沉浸其中以至于忽视现实世界的责任和关系。公司可能通过AI驱动的拟社会关系操纵粉丝,导致不健康的痴迷和模糊的现实,造成心理伤害。

然而,机会也存在。每个粉丝都可以创作自己的故事和叙事。VR可以治疗PTSD和其他心理疾病。与虚拟历史人物的沉浸式学习体验成为可能。技术使个人能够重新获得能动性,成为讲故事的人,为那些在传统社交互动中挣扎的人提供新的娱乐和联系形式。

根本的风险仍然是,虚拟关系取代而非补充真实的人际关系。本章提出了一个问题:即使技术上可行,广泛接受虚拟亲密关系对人类来说是否可取或健康。

神圣的司机:人类作为机器的后备

查马尔(Chamal)是来自斯里兰卡的一位才华横溢、自信满满的年轻游戏玩家,擅长虚拟现实赛车游戏。他的家庭经济困难——他的父亲曾是一名司机,受到自动驾驶汽车兴起的冲击。朱尼厄斯叔叔(Uncle Junius)与一家名为ReelX的中国科技公司有着神秘的联系,他招募查马尔从事一份看似报酬丰厚的游戏工作,这份工作承诺提供他家庭急需的高薪。

查马尔进入一个高科技设施,在他认为是驾驶模拟的环境中进行训练。他穿上触觉套装和头盔,发现自己沉浸在超逼真的虚拟驾驶体验中。训练场景变得越来越具挑战性,模拟了包括阿布扎比、海得拉巴、曼谷、新加坡和日本在内的多个国际城市的真实世界情况。

查马尔迅速登上了排行榜的榜首。他通过成功完成任务获得积分——积分越多,意味着为他挣扎的家庭赚的钱越多。任务从外星人入侵等离奇场景到恐怖袭击等令人不寒而栗的现实情境不等。

接着是关键任务。北爪哇海底的一次扰动引发了海啸,瘫痪了新加坡的自动化智能交通系统。在只有六分钟的时间内,一波十米高的海啸即将袭来,超过一百辆功能失调的自动驾驶汽车及其乘客处于致命危险之中。查马尔和其他“幽灵司机”必须远程控制这些车辆,切换到手动控制,并将它们引导到疏散区。

查马尔的虚拟化身从一辆车“跳”到另一辆车,在几秒钟内控制每辆车的方向盘,躲避倒塌的碎片,争分夺秒地拯救生命。他以强烈的身体和情感投入体验这次任务,随着他拯救一辆又一辆车,他的分数飙升。尽管他努力了,海啸还是追上了他,他目睹了一些汽车被卷走——每一辆未被拯救的汽车都代表着失去的积分和可能失去的生命。这次经历让他身心俱疲,好几天都无法完成基本任务。

在家中恢复期间,查马尔看到一则关于日本关东地区发生海啸的新闻报道。监控录像显示的场景与他的“游戏”任务完全相同——相同的路况、汽车位置、碎片。这个令人震惊的现实击中了他:那个游戏是真实的。 他一直在远程控制真实的车辆,拯救真实的人的生命。

朱尼厄斯叔叔带查马尔去见ReelX的斯里兰卡分部负责人杨娟(Yang Juan)。通过他们的谈话,查马尔了解了“幽灵司机”的真相——在紧急情况下,当AI系统失灵或面临前所未有的情况时,由人类操作员远程控制自动驾驶车辆。游戏的框架是故意的:当人类司机相信这是模拟时,他们的表现会更好,而不是承担生死抉择的全部心理重负。

朱尼厄斯叔叔揭示了自己的过去。十年前,在川藏地区的一次地震救援任务中,他正在运输紧急医疗物资,余震导致一块巨石压碎了他的虚拟车辆。力反馈和联觉(通过VR模拟真实感官)设置得非常高,以至于虚拟的疼痛表现为他腿上真实而持久的伤害。尽管物资最终通过军用无人机送达受害者手中,朱尼厄斯的腿却永远停留在“真实与虚拟之间的 limbo”状态——那次失败任务的永久提醒。

杨娟为查马尔提供了一次去中国的旅行作为奖励。在深圳,查马尔亲眼目睹了自动驾驶汽车和智慧城市的未来。L5级自动驾驶汽车在整个城市无缝运行。系统根据实时数据计算最佳路径和车辆分配。汽车在几秒钟内自动分开,为救护车创造通道。在城市马拉松期间,所有自动驾驶汽车同时收到警报并立即重新规划路线。沿路的智能传感器与车辆控制系统和云基础设施实时通信。整个城市就像一个同步的有机体一样运作。

查马尔将他最初对技术的理解——就像他父亲的车,有着可见、可数的零件——与他新的理解——像他母亲的纱丽,精致而复杂,当组合成一个整体时图案会发生变化——进行了比较。他努力理解自己角色的伦理含义,认识到尽管被告知这是一个游戏,但真实生命依赖于他的技能。

李开复解释说,汽车辅助技术从L0(无自动化)到L5(方向盘可选)不等。真正的L5级自动驾驶——即永远不需要人类干预——仍然很难实现,因为存在边缘案例。自动驾驶汽车在处理前所未有的情况时会遇到困难:自然灾害、恐怖主义、基础设施故障,以及训练数据中未出现的场景。故事探讨了一个现实的临时解决方案:在紧急情况下由人类操作员远程控制,解决AI中的“长尾”问题。

将任务心理框架化为“游戏”解决了一个真实的挑战:当情绪风险降低时,人类司机在压力下的表现会更好,即使工作本身是相同的。朱尼厄斯叔叔反思说,他的母亲因为救护车无法及时穿过交通而去世——自动化系统可以拯救无数生命。

李开复预测,到2041年,主要城市将拥有完全集成的智能交通系统,自动驾驶汽车与基础设施实时通信。人们将购买更少的私家车,转而依赖自动驾驶的共享车队。救护车和紧急车辆将更快地到达目的地。传统的司机职业将基本消失,影响数百万人(仅美国就有380万个工作岗位)。新的工作类别,如“幽灵司机”、远程车辆操作员和AI监督员将会出现。

但自动驾驶汽车可以大幅减少全球每年约135万的交通死亡人数。优化的交通流量减少了拥堵、通勤时间和燃料消耗。老年人、残疾人和不能开车的年轻人获得了行动能力。通勤者可以在车上工作、学习或休息,而不是开车。对停车位的需求减少可以释放宝贵的城市土地。

风险包括网络安全威胁——联网的自动驾驶汽车容易受到黑客攻击或恐怖主义威胁。当智慧城市基础设施失灵时(如海啸场景),后果可能是灾难性的。人类驾驶技能的丧失可能使社会在系统失灵时变得脆弱。数百万失业工人可能面临失业和贫困。故事的标题“神圣的司机”暗示,驾驶——以及在自动化世界中的人类能动性——已经变得神圣、稀有和受人尊敬。

故事最终认为,即使在高度自动化的未来,人类的判断力、创造力和道德推理仍然至关重要。查马尔考虑离开幽灵司机项目,这表明技术应该服务于人类的价值观,而不是反过来。

量子灭绝:当才华转向复仇

罗宾(Robin)和她的黑客团队在冰岛凯夫拉维克(Keflavík)附近一艘废弃的渔船上行动,那里是世界上最安全的数据中心Hrosshvalur的所在地。他们正试图进行一次大胆的抢劫,利用量子计算技术破解中本聪传奇财富的比特币加密。在执行计划时,他们发现自己也正在被黑客攻击。

叙述揭示了真正的反派:马克·卢梭(Marc Rousseau),一位因气候变化而遭受个人悲剧的欧洲物理学家。在因气候相关灾难失去亲人后,卢梭被悲痛和对人类未能解决环境灾难的愤怒所吞噬。

卢梭在量子计算方面取得了突破,并决定将其用于恶意目的。他利用“末日黑名单”策划了致命的无人机袭击,目标是世界各地的有影响力的领导人——他认为这些人应该为气候不作为负责。这些由AI驱动的自主无人机在全球范围内进行精确暗杀。

卢梭计划发动伪装成太空货物的核攻击,摧毁全球通信基础设施,并可能引发广泛的破坏。罗宾和泽维尔(Xavier)必须与时间赛跑,以防止这些灾难性的攻击。他们设计了一个减轻损害的计划,最终迫使他们在重置世界通信网络和拯救无数生命之间做出选择。

李开复指出,到2041年,有80%的可能性会有一台功能正常的量子计算机,拥有4000个逻辑量子比特(以及超过一百万个物理量子比特),能够实现所述的加密破解。量子计算使用量子比特(qubits)而不是传统的二进制比特,从而允许进行指数级更强大的计算。卢梭的量子突破使他能够破解现代加密方法,包括保护比特币钱包的椭圆曲线加密,侵入全球所谓安全的系统,并获取中本聪的比特币财富。

同样可以彻底改变医学、材料科学和人工智能的量子计算也可以被武器化。当前的比特币加密将变得容易受到量子攻击,这对加密货币生态系统构成了生存威胁。

卢梭部署了具有完全自主性的自主无人机群——能够完全在没有人类干预的情况下搜索、决定交战并消灭目标。这些无人机可以识别并追踪他“末日黑名单”上的特定个人,使用AI独立做出击杀决定,同时在全球多个地点进行协调攻击,并精确执行政治暗杀。李开复将它们描述为**“1000美元的政治刺客”。**

李开复强调,自主武器代表了战争的第三次革命,继火药和核武器之后。AI驱动的真正自主意味着完全参与杀戮:搜索、决定交战并完全在没有人类干预的情况下消灭人类生命。这被描述为“不是未来的遥远危险,而是明确而现实的危险”。

到2041年,AI驱动的自主无人机将广泛可用,成本大幅下降(可能低至每台1000美元),能够独立做出击杀决定而无需人类监督,具备大规模行动的协调集群能力,并与量子计算集成以增强目标定位,这些都将成为现实。当前的加密方法将过时。金融系统、政府系统和关键基础设施面临更大的脆弱性。

故事提出了深刻的问题:当强大技术被滥用时,谁应承担责任?卢梭认为他是在为气候不作为伸张正义,但他的行为构成了恐怖主义。叙事质疑了目的能否证明手段的正当性,并触及了谁应该为环境灾难负责的问题。

一个拥有量子计算能力的悲伤个体就能威胁全球文明。如果量子抗性解决方案得不到开发,整个加密货币生态系统将面临过时。自主武器可能引发军备竞赛并降低冲突门槛。政治领导人和有影响力的人物成为暗杀的轻易目标。全球通信网络和关键系统容易受到量子驱动的攻击。

李开复强调,“监管总是落后于创新,而创新正以光速前进。” 这一章是一个警示故事,告诫人类在没有足够伦理框架和保障措施的情况下挥舞强大技术的傲慢。这是一个“明确而现实的危险”,而不仅仅是科幻小说。

工作救世主:在自动化之后寻找目标

故事以一位叙述者描述从2020年开始的时间线展开,详细说明了COVID-19如何催化了AI在各行各业的广泛采用。随着企业为在疫情中生存和最大化效率而转向自动化,常规工作开始以加速的速度消失,导致大规模裁员、日益严重的社会危机、工人抗议和内乱。

为应对大规模失业,美国政府推出了全民基本收入(UBI),旨在支持失业工人。虽然最初很有希望,但UBI产生了负面结果:社会问题增加,包括犯罪率上升、成瘾问题、抑郁和受助者失去生活目标。该计划未能解决人类对有意义工作和社会贡献的基本需求。到2032年,认识到这些失败后,政府废除了UBI。

这为新行业的出现创造了条件:职业恢复或“工作重新分配”公司。詹妮弗·格林伍德(Jennifer Greenwood)是这些先驱公司之一Synchia的受训者之一。Synchia与正在进行裁员的公司合作,为失业工人提供全面的再培训服务。该公司使用AI评估工具分析工人的技能、才能和潜力,然后引导他们找到合适的新就业机会。

Synchia的魅力十足、富有同情心的领导者迈克尔·萨维尔(Michael Saviour)强调尊严和同情心。他培训他的团队要理解,失业不仅仅是一个经济问题,更是一个影响工人身份和自我价值的深刻个人危机。他的名字具有象征意义——他真心希望通过帮助失业工人找到新目标来“拯救”他们。

随着故事的进展,一家大型建筑公司Landmark面临大规模裁员,该公司正在被自动化。一家竞争对手公司OmegaAlliance带着激进的竞争愿景出现。他们承诺通过先进的VR技术实现完全的工作重新分配,声称工人可以过渡到感觉像体力劳动一样真实的虚拟工作。

詹妮弗调查了工人反对自动化的抗议活动,揭示了失业工人中深深的绝望、愤怒和抵制情绪。许多人感到被一个似乎更看重效率而非人类福祉的系统背叛了。

詹妮弗对OmegaAlliance的调查揭示了令人不安的真相。她发现了他们承诺中的缺陷——他们的“虚拟工作”本质上是剥削性的,创造了既不能提供真正就业也不能提供尊严的无意义任务。该公司操纵弱势工人,提供虚假的希望,而企业则从他们的数据和微小贡献中获利。这代表了企业对绝望人群的操纵,而非真正的解决方案。

故事的结局是Synchia和OmegaAlliance之间达成合作,专注于寻找真正能帮助失业工人的解决方案。然而,叙述明确指出,这只是一个更大社会转型的开始。故事倡导**“3R”方法:重新学习(Relearn)(获取新技能)、重新校准(Recalibrate)(适应新的经济现实)和复兴(Renaissance)**(在工作中找到新的目标和意义)。

李开复解释说,虽然大多数技术同时是工作创造者和破坏者,但**“AI的明确目标是接管人类任务,从而大量削减工作岗位。”** 超过380万美国人直接从事卡车或出租车司机的工作,还有更多人为Uber/Lyft、邮政服务、送货服务和仓库兼职开车——所有这些都面临被取代的风险。到2041年,热爱驾驶的人将像今天的马术爱好者一样——去指定的娱乐或体育私人区域。

李开复分析了为什么全民基本收入虽然用心良苦,但却失败了。UBI解决了收入问题,但没有解决人类对目标、意义和贡献的基本需求。没有工作,人们的抑郁、成瘾和社会问题增加了。金钱本身并不能提供尊严、身份或贡献感。

AI擅长于有明确参数的常规、重复性任务。如果工作是常规性的,白领和蓝领工作都同样面临风险。需要创造力、情商、复杂问题解决能力和人际交往的工作更能抵抗自动化。然而,随着AI能力的扩展,即使是一些非常规工作也面临被取代的风险。

李开复强调这不仅仅是一个经济问题,而是一场社会变革。传统的经济和社会秩序组织原则将受到挑战。工作、身份和目标之间的关系必须被重新概念化。新的社会契约将是必要的。

到2041年,所有行业的常规工作将基本实现自动化。自动驾驶汽车将普及,消除大部分驾驶工作。制造业将高度自动化,人力劳动极少。服务业将使用AI进行客户互动、日程安排和运营。仓库和物流将几乎完全由机器人操作。一个成熟的工作重新分配行业将帮助数百万人过渡到新职业,尽管合法服务(如Synchia)和剥削性操作(如OmegaAlliance)都将存在。

关于企业对因自动化而裁员的工人应承担何种义务的问题仍未解决。从AI中获利的公司是否应该支付再培训费用?他们应承担什么责任?当人们脆弱时,掠夺性行为变得更具吸引力和破坏性。技能不可转移的老年工人面临最大的困难。

故事探讨了人类的身份和自我价值是否应该与就业如此紧密地联系在一起,如果不是,社会应如何重构这些关系。失去工作影响整个社区,特别是那些围绕单一产业建立的社区。社会必须重新概念化“工作”的含义,以及人们如何在传统就业之外找到目标和贡献。

但机会是存在的。工人可以通过全面的再培训计划获得新技能。社会可以通过新的社会契契来适应新的经济现实。人类可以发现新的创造力、目标和贡献形式。需要同理心、创造力、复杂问题解决能力和人际交往的工作将变得更有价值,报酬也更高。消除危险、重复和无聊的工作,使人类可以追求更有意义的事业。

李开复主张积极适应,强调人类的尊严、创造力和能动性,而不是将AI驱动的失业视为不可逾越的灾难。这一章认为,人类必须找到创新的方式来在失业的情况下茁壮成长,但这需要有意识地努力创建新的社会结构和经济模式。未来的工作将从根本上不同,但如果社会能够深思熟虑并合乎道德地行动,人类仍然可以找到目标、意义和贡献。

幸福岛:算法买不来满足感

维克多·索洛科夫(Viktor Solokov),一位曾经著名的俄罗斯科技企业家,来到了位于阿拉伯海靠近卡塔尔的豪华人工岛屿“阿尔·赛义达”(Al Saeida),该岛由王室设计。在经历了一场个人危机后,他寻求冒险,逃离他以前的生活。

抵达后,一个名为Qareen的机器人助手迎接了维克多。要进入该岛,他必须同意分享他所有的个人数据——物联网数据、可穿戴传感器、摄像头、个人健康数据、音频、社交媒体,一切——以换取AI优化幸福的承诺。

岛上接待了几位客人,包括一位电影明星、一位神经生物学家、一位诗人和阿基拉公主(Princess Akilah)。通过交谈,他们探讨了对幸福的不同看法,维克多挑战了物质财富导致满足感的假设,引用研究表明在高收入水平下幸福感会下降。

王位继承人马赫迪王子(Prince Mahdi)创建了一个**“幸福算法”**——一个享乐主义AI系统,收集大量数据来预测、监控和增强每个人的福祉,通过根据个性档案量身定制体验。AI使用中间件技术分析个人数据,以增强客人的体验。

起初,维克多在享乐算法迎合的追求中找到了乐趣,但随着时间的推移,这些放纵未能提供持久的满足感。阿基拉公主成为维克多的一个重要人物。她私下反对她哥哥的愿景,并提出了一个**“幸福论算法”**(eudaimonic algorithm),该算法侧重于通过社区精神、积极参与和基于亚伯拉罕·马斯洛需求层次理论的心理框架来追求更深层次、更有意义的幸福,而不是肤浅的快乐。

当客人们发现AI无法维持真正的幸福时,一场反对环境控制性的反抗随之而来。阿基拉秘密地与维克多沟通,暗示真正的幸福超越了算法,需要个人能动性、自我发现和更深层次的情感联系。

在维克多逃离并与阿基拉意外相遇后,他发现真正的转变来自于平衡生活经历和愿望,而不是屈服于人为定义的幸福。维克多思考着一条新的道路,既拥抱他的企业家精神,也吸取了他们在一起时获得的见解。

李开复解释说,幸福是复杂、主观的,并超越了物质财富。像“幸福”和“公平”这样的抽象概念极难量化并编程到AI算法中。当前的AI系统擅长优化点击率、盈利能力和效率,但缺乏处理复杂人类价值观的复杂性。

到2041年,使用传感器和生理指标辨别情绪的技术将会出现,但仅凭这些还不够。AI可以优化体验,但缺乏在没有人类洞察和价值观的情况下培养真正、持久幸福的能力。衡量幸福是有问题的——虽然正在出现创新的框架,但它们未能捕捉到人类情感和体验的全部范围。技术可以使用传感器解释情绪状态并观察生理指标,但这些技术本身无法把握影响人类行为的复杂、个体因素。

追求AI增强幸福依赖于获取个人的私人数据——健康记录、生物识别标识符、根深蒂固的愿望。关键问题出现了:通过AI追求增强的幸福是否需要放弃个人隐私? 个人数据收集与伦理责任之间的关系至关重要。

李开复认为,社会需要发展新的框架来衡量AI的影响,超越经济指标。评估必须包括人类福祉、社会公平和环境保护。这需要对神经科学和心理学的深刻理解,以创造衡量和预测持久人类满意度的技术。

这一章探讨了隐私与集体福祉的权衡、AI系统中的同意和数据共享、算法试图定义和创造人类幸福的尝试,以及在AI主导的环境中的人类能动性。财富和物质丰富并不保证幸福。存在对寻求快乐行为上瘾的风险。AI试图优化人类体验的心理和社会影响仍不清楚。围绕幸福的文化价值观可能与算法定义冲突。

过度依赖AI来实现人类的满足感,存在丧失自主性和真实决策的风险。通过数据驱动的个性化进行操纵成为可能。肤浅的幸福可能取代有意义的满足感。现有的AI系统仍不足以提供所需的心理支持。技术本身无法提供持久的幸福;人类的洞察和价值观仍然至关重要。

丰饶之梦:重新构想稀缺的终结

在未来的澳大利亚,2041年,社会已被AI、清洁能源和自动化所改变,进入了一个后稀缺时代。年轻的土著女性凯拉(Keira)成为了一位著名的海洋生态学家乔安娜·坎贝尔(Joanna Campbell)的照顾者,乔安娜居住在一个名为“阳光村”(Sunshine Village)的智能退休社区。

凯拉了解到由**“Jukurrpa项目”**带来的社会变革,该项目引入了两个革命性的经济体系。**基本生活卡(BLC)**提供津贴,涵盖所有基本必需品——食物、住所、医疗保健、基本娱乐。Moola是通过社区服务和声誉赚取的虚拟货币,促进对教育、老年护理、社会工作和创意领域的贡献。

乔安娜正在与早期阿尔茨海默病作斗争,而凯拉则在这个变化的经济格局中应对土著青年面临的挑战。尽管技术进步,年轻一代和老一代之间仍然存在不平等问题。

通过他们的互动,两个角色最初发生冲突,但最终相互启发。乔安娜带着她的3D VR眼镜失踪了,并以一种新的视角体验世界。这场危机导致了关于身份、目标和社会期望的更深层次的对话。

叙事探讨了丰饶——即基本人类需求得到满足,工作变得可选——如何影响个人的动机。尽管物质丰富,国家仍在努力让人们,特别是年轻人,保持积极性并远离药物滥用。Moola系统最初旨在促进社区参与,但被许多人追求认可和地位的行为所妥协,这与金融利润如何助长贪婪和不平等相呼应。

故事结尾,两个角色就帮助他们的社区共同合作进行了有意义的对话,强调了一个不仅由经济稳定定义,而且由人类繁荣和有意义的存在定义的未来是可能的。

李开复解释说,随着技术进步导致商品成本大幅下降,传统的经济理论受到了质疑。**可负担的清洁能源(“超级能源”)**将大幅降低生产成本。智库RethinkX估计,到2030年投资2万亿美元,美国能源成本将降至每千瓦时3美分——不到今天成本的四分之一。到2041年,预计成本会更低。

在阳光最充足/风力最强的日子里,将能以几乎零成本获得“超级能源”,用于非时间敏感的应用:为闲置汽车的电池充电、海水淡化和处理、废物回收、金属精炼、碳去除、制造业。随着能源成本骤降,水、材料、制造和计算的成本也随之下降。这可以消除超过50%的温室气体排放。

AI驱动的自动化机械显著降低了商品生产成本。增材制造(3D打印)方法降低了生产成本。这促进了前所未有的商品和服务丰饶。

植根于稀缺性的传统框架不再适用。需要彻底改革经济结构以应对社会动荡。在丰饶世界中货币和经济体系的演变。转向以社会价值和社区参与作为衡量成功的标准。新技术产生的财富使现有的经济体系和金融机构过时。

在丰饶经济中,工作变得可选。挑战从物质物品的创造和使用转变为一个更深层次的问题:当传统职业被中断,金钱奖励不再是主要动力时,什么能激励人们追求满足和意义? 需要重新定义超越生产力的价值。

将价值与职业成就等同的人可能会难以找到满足感。从以工作为中心的生活过渡到劳动非必需的时代很困难。存在药物滥用和缺乏动力的风险。在Moola系统中追求认可和地位的人们反映了金融体系的贪婪。

尽管技术进步,不平等仍然存在。代际关系紧张。需要持续的教育和包容的环境。拥有丰富资源的人和感觉被忽视的人之间的鸿沟有扩大的风险。企业不愿消除稀缺性(企业希望保持资源有限以提高收益)。政治上抵制放弃对财政和资源的控制。建立在稀缺性和供需不匹配基础上的实体将抵制变革。

到2041年,成本接近零的广泛清洁能源将存在。澳大利亚将通过可持续技术实现碳中和。数字货币将取代传统货币。全民基本收入类型的系统(BLC)将提供必需品。基于声誉的经济体(Moola)将激励社区服务。后稀缺条件将在发达国家存在。自动化制造将无处不在。商品和服务将以最低或无成本提供。

然而,李开复承认存在挑战。拥有更多资源、稳定性和改革承诺的国家将领导这些举措,但各国实现丰饶的速度将有所不同。现有系统在提供所需支持方面仍然不足。Moola系统可能被追求地位的行为所妥协。财富公平分配的挑战依然存在。需要全球合作。重塑社会规范的困难。

故事以一个充满希望的信息结束:如果个人专注于自我实现、社区关怀和共情参与,积极的社会转型是可能的,从而创造一个由人类繁荣和有意义的存在定义,而不仅仅是经济稳定的未来。消除贫困和饥饿。专注于自我实现、创造力、社区关怀。有时间进行个人成长和建立有意义的关系。通过清洁能源减缓气候变化。人们可以在没有经济约束的情况下追求兴趣。更强的社区纽带和共情参与。

故事之外的信息

《AI 2041》故意没有正式的结论章节,一些评论者认为这令人沮丧。相反,这本书的愿景是通过其故事的累积分量浮现出来的。李开复和陈楸帆既没有呈现反乌托邦,也没有呈现乌托邦,而是呈现了需要我们做好准备的现实场景。

李开复的核心论点是:AI将是21世纪的决定性发展。 在二十年内,日常人类生活的方方面面将变得面目全非。这本书旨在帮助读者理解AI的“光明之路”和“生存危机”。

李开复明确反对对通用人工智能(AGI)和奇点的痴迷。他不相信深度学习到2041年会成为在各方面都与人类智能相匹配的“人工通用智能”。AGI需要十几个像深度学习那样的突破。既然AI在60多年里只有一个重大突破,要在20年内看到十几个是不太可能的。许多挑战仍未解决:创造力、战略思维、推理、反事实思维、情感、意识。

李开复建议我们“停止使用AGI作为AI的最终测试”。AI的心智与人类的心智不同。在二十年内,深度学习将在越来越多的任务上击败人类,但许多现有任务仍将是人类表现更好的地方。甚至会出现一些新的任务来展示人类的优越性,特别是如果AI的进步激励人类改进和进化。

“重要的是,我们开发适合AI的有用应用程序,并寻求找到人机共生,而不是痴迷于深度学习AI是否或何时会成为AGI。”

这本书的十章共同探讨了AI通过有超过80%可能性实现的技术所带来的变革力量。深度学习和大数据使保险比你更了解你自己,但却延续了古老的偏见。计算机视觉和深度伪造创造出完美的合成人,破坏了视觉证据和真相本身。自然语言处理催生了为每个孩子量身定制教育的AI导师,但有过度优化童年的风险。AI医疗保健彻底改变了医学,而大流行技术则促成了孤立的存在。虚拟现实创造了与真实无异的体验,但拟社会关系取代了真正的联系。自动驾驶汽车消除了数百万个工作岗位,同时拯救了数百万人的生命。量子计算解决了不可能的问题,同时破解了所有加密。工作岗位流失迫使人们重新构想工作的意义和目的。AI试图优化幸福,但无法捕捉人类的满足感。后稀缺时代的富足提出了关于人类动机的基本问题。

这些愿景中出现了共同的主线。隐私与效用的权衡出现在十个故事中的八个。AI系统中的偏见和公平性。透明度和问责制的挑战。操纵和成瘾的风险。人类自主性与AI优化。AI开发者的道德责任。

机遇是真实的。前所未有的财富创造。医学和医疗保健的革命。为所有学生提供个性化教育。清洁能源和环境解决方案。消除贫困和饥饿。通过人机共生增强人类能力。新的通信和娱乐形式。

但生存风险同样真实。自主武器作为生存威胁。人类目标和意义的丧失。隐私侵蚀。算法偏见放大社会不平等。监视和控制。虚假信息和深度伪造破坏真相。经济流离失所造成社会不稳定。

李开复和陈楸帆的立场是刻意乐观但现实的。陈楸帆解释说:“我和开复都觉得,迫切需要描绘一幅更乐观、更可信的未来图景。因为如果我们想创造一个我们愿意生活的未来,我们必须首先学会想象它。”

作者们自始至终都在强调人类的能动性。“最重要的是,我们希望你会同意,《AI 2041》中的故事强化了我们对人类能动性的信念——我们是我们命运的主人,任何技术革命都无法改变这一点。”

李开复敦促读者认识到AI的潜力和风险,并通过理解AI的能力和局限性,积极应对伦理挑战,发展新的经济模式,维护人类的能动性和价值观,寻求人机共生,为劳动力转型做准备,并确保AI利益的公平分配,来为即将到来的变化做好准备。

一句关键引言抓住了其中的利害关系:“在AI与人类的故事中,如果我们能正确处理人工智能与人类社会之间的舞蹈,那无疑将是人类历史上最伟大的成就。”

这本书既是警示故事,也是路线图,敦促社会思考AI的轨迹及其重塑人类体验的潜力。未来既不会是无限富足的技术乌托邦,也不会是机器统治的反乌托邦噩梦。相反,它将是混乱、复杂且深刻人性的——由今天就如何开发、部署和治理这些变革性技术所做的选择所塑造。

二十年后,在2041年,AI将无处不在。它会比你更了解你的偏好,优化你的健康,教育你的孩子,驾驶你的车辆,管理你的城市,甚至可能试图设计你的幸福。问题不在于这种转变是否会发生——李开复认为这些故事中的技术有超过80%的可能性会实现。问题在于,人类是否会明智地塑造这一转变,解决偏见,保护隐私,维护能动性,并确保利益被广泛分享,而不是集中在AI超级大国之间。

《AI 2041》中的故事想象了既鼓舞人心又令人不安的未来,展示了前进的道路和需要避免的陷阱。它们提醒我们,技术放大了人类的选择,无论是好是坏。在纳亚娜反抗算法偏见的斗争中,在阿马卡选择真实而非操纵的决定中,在查马尔认识到人类能动性价值的时刻,以及在凯拉和乔安娜发现超越算法的意义的过程中,我们看到人类价值观在对抗技术决定论时 asserting 自身。

这些不是对一个不可避免的未来的预测,而是对有意识选择的邀请。人工智能与人类社会之间的舞蹈已经开始。它将成为人类最伟大的成就还是最严重的错误,取决于现在共同采取的步骤,以开放的眼光看待可能性和危险。

构建高效AI智能体:真正能在生产环境落地的架构模式

· 阅读需 11 分钟
Tian Pan
Software Engineer

大多数AI智能体项目失败,并非因为模型能力不足——而是因为构建这些系统的工程师在尚未积累足够经验时就急于引入复杂性。通过对数十个生产环境部署案例的深入研究,一个清晰的规律浮现出来:那些成功落地可靠智能体的团队,都从最简单的系统出发,只有在指标数据确实需要时才增加复杂度。

本文将系统梳理那些能将稳健智能体系统与容易幻觉、陷入循环、在真实负载下崩溃的系统区分开来的核心思维模型、架构模式和实践技巧。

Claude Code 中高级使用技巧

· 阅读需 11 分钟

人工智能编程助手已经从简单的代码补全工具进化为成熟的开发伙伴。Claude Code 代表了这一演进的下一个阶段,它提供了一个可被称为**“自主编程”**的框架。这款工具旨在深度集成到你的工作流中,做很多之前 AI coding 做不到的事情:

  • 代码理解与问答: 充当项目专家,为新团队成员讲解大型代码库的运作方式,极具价值。
  • 大规模重构: 擅长修改庞大文件(例如超过 18,000 行),凭借其对全局代码关系的理解,在其他 AI 工具束手无策时依然表现出色。
  • 调试: 提供逐步推理过程,助你找到错误的根本原因,而非像其他工具那样只给出修复方案却无从解释。
  • 复杂功能生成: 遵循 “探索 → 计划 → 实现” 的工作流。你可以引导它先分析问题并制定详细计划,然后再编写代码。
  • 测试驱动开发 (TDD): 可以指导它先编写失败的测试用例,然后生成能让测试通过的最精简代码,从而显著加速 TDD 循环。

接下来,让我们深入探索这些能助你驾驭其强大功能的技巧。

1. 基础设置:工作流的核心

坚实的配置是高效工作流的基石。在这一步投入的时间,将在后续的每一次交互中为你带来丰厚的回报。

  • 使用 CLAUDE.md 作为项目记忆:在任何项目的根目录下,都应该有一个简洁的 CLAUDE.md 文件。该文件充当项目的“短期记忆”,包含了关键的架构原则、编码规范和测试流程。为了保持文件简洁、重点突出,可以使用 imports 语法(如 @docs/testing.md)来引用更详细的文档。你可以通过以 # 开头的消息快速添加新规则,或使用 /memory 命令直接编辑这份记忆。
  • Monorepo 感知:现代开发常常涉及 Monorepo。为了让 Claude 能够访问多个包以进行跨目录分析和重构,可以使用 --add-dir 标志,或在你的 .claude/settings.json 文件中定义 additionalDirectories。这对于跨越代码库多个部分的任务至关重要。
  • 键盘与终端快捷操作:速度至关重要。掌握快捷键可以简化你的交互流程。使用 Esc Esc 快速编辑上一条消息。运行一次 /terminal-setup 命令,即可启用 Shift+Enter 来输入换行符。对于 Vim 爱好者,/vim 命令可以让你在熟悉的 Vim 模式下进行编辑。

2. 优化日常工作流

有了坚实的基础,你就可以引入一些实践来减少阻力,提升日常工作效率。

使用正确的模式

CLI 提供了几种权限模式,以适应不同的任务和风险偏好:

  • default:最安全的新手起点。在执行有潜在风险的操作前,它会提示你进行确认,在安全和速度之间取得了良好平衡。
  • acceptEdits:一种“实时编码”模式,它会自动接受文件编辑而无需提示。非常适合快速迭代以及在你密切监督流程的场景。
  • plan:一种为代码审查等任务设计的“安全”模式。在此模式下,Claude 可以分析和讨论代码,但不能修改任何文件。
  • bypassPermissions:完全跳过所有权限提示。请极其谨慎地使用此模式,并且只在意外更改不会造成任何后果的沙盒环境中使用。

你可以在 .claude/settings.json 中设置默认模式,或使用 --permission-mode 标志为单次会话指定模式。

斜杠命令与自定义

重复性任务是自动化的绝佳候选。通过创建自定义斜杠命令,将你最常用的提示词转化为可复用的工具。只需将它们作为带有 YAML frontmatter 的 Markdown 文件存储在 .claude/commands/ 目录中即可。

  • 在 frontmatter 中使用 allowed-tools 来限制命令可以执行的操作,增加一层安全性。
  • 使用 ! 前缀可以运行 shell 命令(例如 !git status -sb),并将其输出直接注入到你的提示词上下文中。
  • 使用 $ARGUMENTS 向你的命令传递参数,使其更加灵活和强大。

恢复会话与并行工作

  • claude --continue:立即跳回到你最近一次的会话中。
  • claude --resume:列出过去的所有会话,让你能精确地从上次中断的地方继续。
  • Git worktrees:对于大规模重构,可以使用 git worktree 创建隔离的分支。这允许你并行运行多个独立的 Claude 会话,每个会话都有自己的上下文,从而避免混淆和冲突。

用于协作的输出风格

  • /output-style explanatory:在响应中增加一个“洞察 (Insights)”部分,非常适合用于指导初级开发者或在 Pull Request 中解释复杂的变更。
  • /output-style learning:在响应中添加 TODO(human) 占位符,主动邀请你参与协作,填补空白。

3. 集成质量与安全保障

真正的自主需要有护栏。将质量检查和安全网直接集成到你的工作流中,让你能充满信心地进行开发。

使用钩子 (Hooks) 作为安全护栏

钩子是在特定生命周期事件中自动运行的 shell 命令,提供了一种确定性的方式来强制执行规则。你可以在 .claude/settings.json 中配置它们。

  • PreToolUse:在工具使用运行检查。例如,你可以阻止对敏感文件的编辑,或要求必须存在相应的测试文件才允许写入操作。
  • PostToolUse:在工具使用自动执行清理任务。这非常适合在每次编辑后运行 prettiergofmt 等格式化工具,以及代码检查器和快速测试。
  • Notification:当 Claude 需要你输入时发送桌面提醒,这样你就可以在切换任务的同时不会忘记这边的进度。

例如,让 Mac 在任务完成后通知你 - code ~/.claude/settings.json

{
"hooks": {
"Stop": [
{
"hooks": [
{
"type": "command",
"command": "say \"job's done!\""
}
]
}
]
}
}

权限与安全

在你的设置中定义明确的 allow(允许)、ask(询问)和 deny(拒绝)规则,以便在无需频繁提示的情况下管理工具的访问权限。

  • Allow:安全、常规的操作,如 Bash(npm run test:*)
  • Ask:你希望手动批准的有潜在风险的操作,如 Bash(git push:*)
  • Deny:用于防止灾难性后果的关键安全规则,如 Read(./.env)Read(./secrets/**)

专家子智能体 (Subagents)

对于复杂的项目,你可以定义具有特定角色的项目级智能体,例如 code-reviewer(代码审查员)、test-runner(测试运行器)或 debugger(调试器)。每个智能体都配置了有限的工具集,以防止其越权操作。Claude 可以自动将任务委派给合适的智能体,你也可以明确地调用某个智能体。可以参考这个仓库获取示例。

4. 高级工作流与集成

通过集成视觉上下文和外部服务,超越基本的文件访问,提升你的工作流。

通过截图和图片提供视觉上下文

一图胜千言,尤其是在调试 UI 问题时。有三种可靠的方法可以向 Claude Code 提供图片:

  1. 从剪贴板粘贴:将截图复制到剪贴板,然后直接用 Ctrl+V 粘贴到终端中(注意:在 macOS 上也是 Ctrl+V,而不是 Cmd+V)。
  2. 拖放:将图片文件(PNG, JPEG, GIF, WebP)从你的文件管理器直接拖到 CLI 窗口中。
  3. 引用文件路径:在你的提示词中直接包含本地文件路径即可,例如:分析这张截图:/path/to/screenshot.png

模型上下文协议 (MCP) 集成

MCP 使 Claude 能够连接到 Jira、GitHub、Notion 或 Sentry 等外部服务。在添加并认证一个 MCP 服务器后,你就可以在提示词中直接引用外部资源,例如 实现 JIRA-ENG-4521 中描述的功能

非交互式使用与 CI/CD 集成

对于自动化和脚本编写,可以使用带 -p 标志的打印模式

  • 将其与 --output-format json--output-format stream-json 结合使用,可以生成机器可读的输出,然后通过管道传递给 jq 等其他工具进行进一步处理。
  • 使用 --max-turns 为交互次数设置硬性上限,防止自动化脚本中出现失控循环。

5. 成本与性能优化

强大的模型需要明智地使用。养成这些习惯,以管理你的开销并优化性能。

  • 关注开销:随时使用 /cost 命令,获取当前会话成本的实时摘要。
  • 有策略地选择模型:使用像 Opus 这样最强大的模型进行高层规划、复杂推理和初步策略制定。然后,切换到像 SonnetHaiku 这样更快、更经济的模型来执行实现、测试和其他常规任务。
  • 状态行:一个流行的社区技巧是在终端添加一个自定义状态行,用于显示实时成本和当前 Git 分支等其他有用信息。ccusage 工具是实现此功能的常用选择。

6. 入门套件:开箱即用的配置

这里提供了一些可直接复制粘贴的配置文件,助你快速上手。

.claude/settings.json (项目共享)

此文件用于建立项目范围的权限、钩子和 monorepo 设置。

{
"defaultMode": "acceptEdits",
"permissions": {
"allow": [
"Read(**/*)",
"Edit(src/**)",
"Bash(npm run test:*)",
"Bash(npm run lint:*)",
"Bash(go test:*)",
"Bash(git status:*)",
"Bash(git diff:*)"
],
"ask": [
"Bash(git push:*)",
"Bash(pnpm publish:*)",
"Bash(npm publish:*)"
],
"deny": [
"Read(./.env)",
"Read(./.env.*)",
"Read(./secrets/**)"
],
"additionalDirectories": ["../apps", "../packages", "../services"]
},
"hooks": {
"PreToolUse": [
{
"matcher": "Edit|MultiEdit|Write",
"hooks": [
{
"type": "command",
"command": "python3 - <<'PY'\nimport json,sys\np=json.load(sys.stdin).get('tool_input',{}).get('file_path','')\nblock=['.env','/secrets/','.git/']\nsys.exit(2 if any(b in p for b in block) else 0)\nPY"
}
]
}
],
"PostToolUse": [
{
"matcher": "Edit|MultiEdit|Write",
"hooks": [
{ "type": "command", "command": "npx prettier --write . --loglevel silent || true" },
{ "type": "command", "command": "npm run -s lint || true" },
{ "type": "command", "command": "npm run -s test || true" }
]
}
],
"Notification": [
{ "matcher": "", "hooks": [ { "type": "command", "command": "command -v terminal-notifier >/dev/null && terminal-notifier -message 'Claude needs input' -title 'Claude Code' || true" } ] }
]
},
"statusLine": { "type": "command", "command": "~/.claude/statusline.sh" }
}

.claude/commands/commit.md

这个自定义命令利用 shell 输出起草一条符合 Conventional Commit 规范的消息。


allowed-tools: Bash(git add:*), Bash(git status:*), Bash(git commit:*)
description: Create a conventional commit from current changes

## Context
- Status: !`git status -sb`
- Diff: !`git diff --staged; git diff`

## Task
Write a Conventional Commit subject (<= 72 chars) and a concise body.
Call out BREAKING CHANGE if needed. Stage relevant files and commit.

.claude/agents/code-reviewer.md

一个专门负责代码审查的智能体定义。


name: code-reviewer
description: Senior review with focus on correctness, security, tests, readability, performance.
tools: Read, Grep, Glob, Bash

Return a checklist grouped by **Critical**, **Warnings**, and **Suggestions**.
Propose minimal patches where possible. Include test guidance for each critical item.

CLAUDE.md (Memory)

一个定义了工作风格、质量标准和关键项目文档的示例记忆文件。

# Working style
- Start in **Plan mode**; outline approach, tests, and risks. Wait for approval.
- Execute in **small, reversible steps**; propose staged commits with diffs.
- Place generated docs in `docs/ai/`. Avoid ad-hoc files elsewhere.

# Code quality
- Prefer pure functions and dependency injection.
- JS/TS: strict TS, eslint + prettier; tests via vitest/jest.
- Go: table-driven tests; `gofmt`/`golangci-lint`.
- Security: never read `.env*` or `./secrets/**`; do not write tokens to disk.

# Project map
@README.md
@docs/architecture.md
@docs/testing.md

7. 问题排查与总结

  • 图片粘贴问题:如果从剪贴板粘贴不起作用(在某些 Linux 终端上很常见),请转而使用可靠的拖放或文件路径方法。
  • 过于激进的编辑:在日常工作流中,避免使用 bypassPermissions 模式(通过 claude --dangerously-skip-permissions 启动)。更好的方法是使用 acceptEdits 模式,并结合明确定义的 allow/ask/deny 规则。在合并前,务必审查所有差异。
  • 记忆膨胀:如果你发现 Claude 开始遗漏指令,可能是你的 CLAUDE.md 文件变得太大了。可以通过将细节移至导入的文档文件中来缩短它。你也可以在会话期间重申关键规则以重新聚焦,或使用 /compact 命令清理会话历史。

Claude Code 不仅仅是一个代码生成器,它是一个用于构建高效的、AI 增强开发流程的平台。通过超越基础的提示词并采纳这些中高级技巧,你可以建立一个更快、更安全、更具协作性的工作流。大胆尝试这些功能,根据你的项目进行调整,并探索软件开发的新范式吧。

OpenAI: 前沿企业落地生成式 AI 的七大启示

· 阅读需 8 分钟

当许多企业仍在探讨生成式 AI 的潜力时,一批先行者已经悄然将其融入核心业务,并取得了惊人的成果。OpenAI 最新发布的《AI in the Enterprise》报告,通过深入调研摩根士丹利 (Morgan Stanley)、Indeed、Klarna 等七家行业领导者,为我们揭示了企业成功落地 AI 的七条通用规律。这不仅是技术的胜利,更是一场关于思维范式、组织协同和商业价值的变革。

七大洞见:从试探到规模化的实战路径

1. 从严谨评估(Evals)开始,先求“可控”再谈“增长”

AI 的引入绝非一蹴而就。在全面推广前,建立一套严谨、可量化的评估体系(Evaluation, 或称 “eval”)是成功的基石。

以金融巨头摩根士丹利为例,面对高度敏感的客户业务,他们没有盲目跟进,而是首先围绕三大核心场景——语言翻译的准确性、信息摘要的质量、以及与人类专家的答案比对——建立了一套多维度的 eval 评分系统。只有当模型在这些评估中被证实“可控、安全且能带来增益”后,才会被逐步推广至一线业务 。

这一审慎的策略带来了丰厚回报:如今,摩根士丹利 98% 的财务顾问每天都在使用 AI;内部知识库的文档命中率从 **20% 跃升至 80% ;过去需要数天才能完成的客户跟进,现在缩短至数小时 。

2. 把 AI 深度嵌入产品体验,而非“外挂”一个聊天机器人

最成功的 AI 应用,往往是那些无缝融入现有产品、提升核心用户体验的。它应该像水和电融入人的生活那样,成为产品原生的组成部分。

全球最大的招聘网站 Indeed 就是一个绝佳范例。他们没有简单地做一个求职问答机器人,而是利用 GPT-4o mini 的能力,为每一条系统匹配的岗位自动生成一段个性化的“推荐理由”。这个看似微小的改动,精准地解答了求职者心中“为什么是我”的疑问,极大地提升了匹配效率和人性化体验。结果是,求职者的申请发起量提升了 20%,而后续雇主成功录用的比例也提升了 13%

3. 及早行动,享受知识与经验的“复利雪球”

AI 的价值是通过不断迭代和学习来累积的,起步越早,组织能享受到的“复利”效应就越显著。

瑞典金融科技公司 Klarna 的 AI 客服系统是这一原则的生动体现。在短短几个月内,AI 客服就接管了三分之二的客户聊天会话,承担了数百名人类坐席的工作量 。更惊人的是,客户问题的平均解决时间从 11 分钟骤降至 2 分钟 。这一举措预计将为公司带来每年 4000 万美元的利润增长 。如今,Klarna 90% 的员工已在日常工作中使用 AI ,整个组织因此获得了更快的创新速度和持续优化的能力。

4. 通过自定义与精调(Fine-tuning)贴合业务,打造护城河

通用大模型能力强大,但真正的竞争优势来自于“量体裁衣”。通过在你独有的数据和业务场景上进行模型精调,才能使其更懂你的业务。

家居建材零售商 Lowe’s 在优化其电商搜索功能时,面临着海量供应商提供的、格式不一的商品数据 。通过利用 OpenAI 的 API 对 GPT-3.5 模型进行精调,Lowe's 将其训练成了一个能深度理解家居行业术语和消费者搜索习惯的“专家” 。精调后的模型,商品标签的准确率提升了 20%,错误检测能力更是提升了 60%

5. 把工具交给一线专家,由下而上激发创新

最了解业务痛点的人,往往是身处一线、每天与问题打交道的员工。将简单易用的 AI 工具交到他们手中,能由下而上地催生出最实用的解决方案。

全球性银行 BBVA 采取了这种“专家主导”的策略,向全员开放了 ChatGPT Enterprise 。在短短五个月内,员工们自发创建了超过 2,900 个定制化的 GPT 应用 。这些应用涵盖了从信用风险评估、法务合规问答到客户 NPS 调研的情感分析等多种场景 。许多过去需要数周才能完成的分析和报告流程,如今被缩短到了几小时

6. 解除开发者瓶颈,用“平台化”交付 AI 能力

在许多企业,研发资源是创新的主要瓶颈 。为了打破这一僵局,建立一个统一、高效的 AI 开发平台至关重要。

拉丁美洲最大的电商与金融科技公司 Mercado Libre 创建了一个名为 “Verdi” 的内部 AI 平台 。该平台整合了语言模型、API 和其他开发工具,让公司的 17,000 名开发者能够用自然语言像“拼乐高”一样快速构建、部署和迭代 AI 应用 。平台化交付带来了惊人的效率提升:商品库存的上架和编目速度提升了 100 倍,对欺诈性商品的检测准确率高达近 99%

7. 设定大胆的自动化目标,将人力解放到高价值工作中

每个企业都充斥着大量重复、繁琐的流程。与其视之为必要的运营成本,不如设定一个大胆的目标:用 AI 智能体(Agent)将其彻底自动化。

OpenAI 自身就是这一理念的践行者。他们构建了一个内部自动化平台,用于处理支持团队的日常工作 。这个平台可以自动访问客户数据、阅读知识库文章、起草回复邮件,甚至直接在系统中更新账户信息或创建支持工单 。如今,该平台每月自动处理数十万个任务,将员工从重复劳动中解放出来,专注于更具创造性和战略性的高价值工作 。

共同的成功脉络

纵观这些成功案例,其关键并非在于追求最前沿的模型或技术,而在于一套共通的战略思想:

  • 评估驱动 (Evaluation-Driven):将严格的评估作为项目启动和迭代的“看门人”。
  • 产品思维 (Product Mindset):将 AI 作为提升核心产品体验的内生能力,而非附加功能。
  • 持续投资 (Continuous Investment):认识到 AI 的价值在于复利,愿意长期投入资源、积累数据和培养组织能力。
  • 平台治理 (Platform Governance):通过平台化手段,将 AI 能力安全、合规、高效地赋能给整个组织。

成功的路径是相似的:先聚焦高投资回报率(ROI)的场景做深做透,然后用积累的数据、经验和组织学习,反哺下一轮更大规模的迭代。

给技术团队的实操清单

  1. 像做“需求评审”一样做 eval:在项目上线前,用量化指标评估其潜在风险与收益。
  2. 让每个模块“原生支持 AI”:在产品设计之初就思考 AI 如何融入,而不是事后外挂一个聊天窗口。
  3. 尽早启动“复利飞轮”:开始积累高质量的业务数据、梳理核心流程,并培养员工的 AI 心智。
  4. 建立“模型即产品”的精调流水线:将模型微调流程化、自动化,形成独特的、难以复制的差异化护城河。
  5. 用低门槛工具赋能一线:将 AI 能力通过 Custom GPTs 等形式下沉到业务部门,让真实场景倒逼平台能力的完善。
  6. 提供统一的“脚手架”:为开发者提供统一的安全、合规、监控和路由框架,降低创新门槛。
  7. 锁定“三高”流程:优先自动化那些高重复、低主观判断、高跨系统的流程,最大化 AI 智能体的价值。

行动建议: 现在就从你的业务中挑选一个长期存在的痛点,开启第一轮 eval 评估。从小小的胜利开始,你的 AI 复利曲线已经在这片充满机遇的土地上,悄悄起跑。

互联网商务的未来:2025年Stripe Sessions大会五大关键洞察

· 阅读需 6 分钟

每年,Stripe Sessions大会都是窥探互联网经济未来发展的重要窗口。今年的大会同样精彩纷呈,Collison兄弟展示了一个既迫在眉睫又极具变革性的商业愿景。认真消化了主题演讲的内容后,我不禁为数字商业格局中正在形成的清晰趋势而感叹。

下面就是我认为最值得关注的五大关键洞见。

一、Stripe生态已成为不可忽视的经济力量

Stripe生态系统的规模已达到令人瞩目的宏观经济水平:

  • 2024年,Stripe平台上的企业增长速度比标普500指数快7倍
  • 这些企业的集体增长创造了4000亿美元的新增支付交易额
  • Stripe目前每年处理超过1.4万亿美元的交易——约占全球GDP的1.3%
  • 大约200万美国企业(占美国企业总数的6%)正在Stripe平台上构建业务

引人注目的不仅是这一规模,还有其应用范围之广。从财富100强巨头到小型创业公司,从AI实验室到创作者经济平台,Stripe实际上已经成为互联网的金融基础设施层。

当一个平台触及如此广泛的经济领域时,其走向的每一个变化都变得格外重要。互联网经济不再是边缘领域——它正日益成为整体经济的核心部分。

二、AI公司正在刷新所有增长记录

主题演讲中最引人瞩目的发现是AI原生公司的扩张速度之快,远超前几代创业公司:

  • 新兴AI公司平均只需9个月就能达到500万美元的年度经常性收入
  • Lovable在短短4个月内就实现了5000万美元的年度经常性收入
  • Cursor在两年内达成超过3亿美元的年度经常性收入,同时保持着惊人的效率(员工人均创收500万美元)

作为对比,SaaS行业鼎盛时期,典型企业通常需要18-24个月才能达到类似的里程碑。这种增长速度的加速是前所未有的。

是什么造就了这种超高速增长?AI公司主要受益于三大优势:

  1. 与生俱来的全球覆盖能力——从创立第一天起就能服务全球200多个国家已成为新常态
  2. 比传统SaaS产品更高的用户留存率
  3. 远低的运营复杂度,使精简团队能够支持海量用户群体

这表明我们正在经历的不仅是技术迭代,更是商业速度的根本性变革。过去制约企业增长的各种约束正在被系统性地打破。

三、稳定币正在静默重塑全球金融

虽然AI占据了大多数媒体头条,但稳定币可能最终带来同等规模的经济影响。Patrick Collison将稳定币比作"价值的室温超导体",这一比喻精准地捕捉了它们的变革潜力。

看看这些发展趋势:

  • 自去年以来,稳定币的供应量增长了39%
  • 主要稳定币发行商正成为美国国债的重要持有者
  • 从SpaceX这样的大企业到众多小型创业公司都在利用稳定币消除全球业务中的摩擦

真正的突破在于稳定币如何解决跨境金融服务的长期挑战。企业现在可以同时在数十个国家开展业务,无需应对复杂的本地银行关系网络和货币转换问题。

这显著降低了全球扩张的门槛,为以无国界价值转移为核心的全新商业模式创造了可能性。

四、"代理商务"将重新定义我们的购物方式

大会中提出的最具前瞻性的概念莫过于"模型发起商务协议"(MCP)——这使AI代理能够直接代表用户完成购买。

演示展示了Cursor(一款AI编码助手)在编码环境内直接购买Vercel的机器人防护服务,全程无需离开工作流程。

这指向了商业形态的深刻变革:

  • AI工具将成为原生销售渠道
  • 购买行为将在工作流程中自然发生
  • 传统的网站/应用购物结账体验可能变得次要

对于企业而言,这意味着需要彻底重新思考分销策略。每个AI工具都将成为潜在的销售点,AI代理将基于用户意图而非明确的购物行为来促成购买决策。

这对营销、定价和客户获取策略产生的影响将是深远的。我们正在从搜索驱动的商务模式转向意图驱动的商务模式,AI能够在用户需求被完全表达之前就理解并行动。

五、突破性成功的新公式已然改写

除了特定技术外,John Collison还总结了当今增长最快企业的共同特征:

天生全球化

最成功的创业公司现在从第一天起就瞄准全球市场,而非遵循传统的先国内后国际的路径。

极度专业化

互联网的庞大覆盖面使高度专业化的产品不仅变得可行,而且更具优势。Harvey(法律AI)和Naba(医疗健康AI)等公司展示了行业专精如何加速用户采纳。

基于使用的定价模式

AI经济学和推理成本正推动定价策略从固定订阅转向基于成果和使用量的动态模式。

惊人的员工效能比

当今的突破性公司达到了过去难以想象的效率水平。Gloss Genius仅用300名员工就支持了90,000家美容沙龙的运营。

这些特征代表着对企业构建方式的根本性重新思考。传统的科技公司扩张手册正在被迅速重写。

这对创业者和投资者意味着什么

对于正在构建或投资科技企业的人来说,几个关键指导原则浮现出来:

  1. 从一开始就放眼全球——地理边界的限制越来越人为

  2. 拥抱极度专精——在狭窄领域成为最佳解决方案比在多个领域表现一般更有价值

  3. 为代理商务做好准备——思考产品如何与AI助手而非仅与人类用户交互

  4. 早期整合稳定币——在竞争对手之前为全球客户消除摩擦

  5. 优化用户留存——在AI经济中,具有强大留存指标的高粘性产品正在赢得市场

最令人振奋的是,这一切仍处于起步阶段。AI和稳定币才刚刚开始重塑商业世界。如今以这些技术为基础打造的企业很可能将定义互联网经济的下一个十年。

正如Patrick Collison所指出的,技术变革的动荡时期历来有利于大胆创新。对于愿意拥抱这些变化的创业者来说,机遇从未如此丰富。

你对商业未来的发展有何看法?你是否在所处行业中观察到了这些趋势?欢迎在评论区分享你的见解。

AI 销售开发代表的承诺与痛苦:实地报告

· 阅读需 5 分钟

在不断优化销售渠道的过程中,AI 销售开发代表(AI SDRs)已成为 2025 年最热门的工具之一。它们承诺通过自动化潜在客户开发和大规模个性化外联,在不增加人力的情况下,将合格的会议安排到你的日历上。

但它们真的兑现了承诺吗?

在与数十位销售领导者交谈并深入研究 G2、Reddit 和 Slack 社区的数百条评论后,我发现了一个比炒作更复杂的故事。

AI 销售开发代表

11 倍问题:高期望,混合结果

11x.ai 已成为这一领域的典型代表,声称可以让 SDRs 的生产力提高“11 倍”。这是一个大胆的承诺,并设定了很高的标准。

“一位销售总监告诉我:‘我期望 AI 能像初级代表一样研究每个潜在客户,但我得到的只是填入公司名称的填空游戏。’”

这并不是个例。在论坛和客户聊天中,一个共同的主题浮现:邮件感觉自动化、模板化,往往过于通用而无法奏效。

而当潜在客户回复时?AI 往往会出错。正如一位 Reddit 用户所说:

“它可以整天发送邮件,但一旦有人说出意料之外的话,它就短路了。”

这留下了一个奇怪的交接体验——潜在客户以为他们在与人类聊天,但当实际代表在对话中途介入时,他们感受到了变化。

实际有效的地方

尽管有挫折,AI SDRs 在某些方面确实表现出色:

  • 外联量:团队一致报告说,漏斗顶端活动大幅增加。一支欧洲团队告诉我,他们现在可以通过 AI 代表“全天候”跨时区进行外联。
  • 潜在客户开发帮助:像 11x.ai 这样的工具在寻找潜在客户方面表现不错。“它找到的联系人列表比预期的要好,”一位德国用户说。
  • 个性化见解:Humantic AI 以惊人的准确个性化档案给多个团队留下了深刻印象。“就像为第一次通话准备了作弊码,”一位 G2 评论者说。
  • 实时辅导:Cresta 采取不同的方法——实时辅导人类 SDRs,而不是取代他们。这对于新代表的入职培训或提高通话质量特别有用,而无需聘请全职培训师。

超越性能:隐藏的痛点

超越功能问题,更深层次的结构性问题开始浮现:

  • 锁定合同:大多数平台要求每年 35,000 至 60,000 美元的承诺,几乎没有试用的机会。“我们被一个对我们不起作用的工具困住了,”一位买家说。
  • 技术故障:从错误到延迟的仪表板,用户——尤其是在欧洲——报告了破坏工作流程的可靠性问题。
  • 定制限制:如果你的受众是小众或信息复杂,AI 往往会遇到困难。“我们调整了好几周,”一位 B2B SaaS 高管说。“邮件仍然感觉很通用。”
  • 数据安全担忧:随着敏感客户数据流经这些系统,几家大公司对其信息可能如何使用或重用表示担忧。

战略困境:构建、购买还是增强?

鉴于权衡,销售领导者以三种方式接近 AI SDRs:

  • 全力以赴者:通常是快速移动、高量的组织,优先考虑规模。他们愿意接受 AI 的粗糙边缘。
  • 增强者:使用 AI 支持(而不是取代)代表的团队。他们使用像 Regie.ai 这样的工具来撰写邮件,使用 Humantic 来准备通话,并让人类控制对话。
  • DIY 构建者:技术娴熟的组织在 GPTs 和内部数据之上构建自定义工作流程。虽然工作量更大,但这让他们拥有控制权并避免供应商锁定。

需要改进的地方

要从“有趣”变为不可或缺,AI SDR 供应商需要在几个方面取得实质性进展:

  1. 处理对话,而不仅仅是介绍——最大的差距在于后续。如果 AI 无法自然回应,幻觉就会破裂。
  2. 超越模板——真正的个性化应该参考真实的业务背景,而不仅仅是职位和公司名称。
  3. 使定价更灵活——团队希望在承诺六位数之前进行试验。
  4. 修复用户体验——更好的入职培训、更快的加载时间和更少的错误将大有帮助。
  5. 允许更深层次的定制——为公司提供工具,以教授 AI 他们的价值主张、信息框架和产品细微差别。

未来发展方向

市场似乎正在分裂为两个方向:

  • 垂直 AI SDRs:针对医疗、金融或制造业语言、工作流程和法规进行培训的行业特定工具。
  • 轻量级助手:支持代表撰写、潜在客户开发和通话准备的更实惠工具——而不是假装取代他们。 a 那些倾向于增强而非自动化的公司可能最终会建立更可持续的业务。

底线

AI SDRs 是企业 AI 炒作周期的经典例子。其推销——一个无限可扩展的数字销售团队——是不可抗拒的。但现实仍在追赶。

对于大多数团队来说,今天的明智之举是有针对性的增强: 让 AI 做它擅长的事情——潜在客户开发、撰写、支持——同时让人类参与处理异议、关系建立和成交。

因为在销售中,就像在生活中一样,人情味仍然很重要。也许现在比以往任何时候都更重要。

你使用过 AI SDRs 吗?你的体验如何——值得炒作还是为时过早?