跳到主要内容

向组织内部沟通 AI 的局限性:工程负责人的行动框架

· 阅读需 12 分钟
Tian Pan
Software Engineer

演示表现完美。法务部门已经批准。销售团队已经在向客户承诺该功能将在下个季度上线。接着,第一次生产环境故障发生了——模型言之凿凿地起草了一个引用了并不存在的合同条款的条文,销售将其发给了客户,法务部门花了三周时间进行损害控制。

这不是一个关于坏模型的故事,而是一个关于沟通失误的故事。工程团队知道模型可能会产生幻觉。法务假设它不会。销售假设任何故障在到达客户之前都会被拦截。运维假设有其他人在专门监控这一点。没有人撒谎。每个人都在基于同一个系统的不同心理模型工作。

大多数 AI 项目失败的根本原因不在于 AI 本身。根据兰德公司(RAND Corporation)对失败的 AI 计划的分析,“对问题定义的误解”——包括对能力限制的沟通误导——是单一最常见的原因。70% 到 95% 的企业 AI 计划未能交付预期成果,而技术本身很少是限制因素。限制因素在于,你组织中的每个团队都在悄悄地构建关于你的 AI 系统能做什么的不同理论,而没有人明确地纠正过其中任何一个。

会误解你系统的三个团队

这种沟通失误并非偶然。每个非工程团队往往会带入相同的错误心理模型,这些模型源于他们已经熟悉的工具。

法务团队假设确定性。 法务专业人士的职业生涯都花在正式系统中,在这些系统中,相同的输入总是产生相同的输出。合同条款的含义是确定的,法律条文的应用是一致的。当他们遇到大语言模型(LLM)时,会下意识地套用同样的期望。

如果他们审核过一次输出且看起来没问题,他们就会假设同一类别的未来输出也会没问题。他们没有内化这样一个事实:系统可能会根据措辞、消息顺序,甚至处理请求的数据中心,对同一个难题得出相反的结论。将 Temperature(温度)设置为零有所帮助,但并不能消除差异。几乎每个法务团队在第一次听到这个事实时都会感到惊讶。

实际后果是:法务签署了一组被认为是可接受的有限输出,然后在生产环境中发现系统并不受这些输出的约束。当出现超出批准范围的情况时,他们的本能是将其视为 Bug,而不是系统的固有属性。

销售团队过度推销可靠性。 销售团队的目标是达成交易,而 AI 演示极具表现力。一个精心策划的、展示系统在代表性样本上自信表现的演示会留下深刻印象。然后,销售会将他们所看到的真实地报告给客户、合作伙伴和高管。他们并不是故意误导任何人。他们确实没有看到那 13% 系统失败的情况,因为工程团队向他们展示的是系统的最佳状态。结果是,面向客户的承诺建立在精挑细选的行为样本之上,而生产环境中的第一个极端案例(Edge Case)就变成了客户投诉,而不是预先沟通好的预期情况。

除了演示问题,销售通常也不理解启用 AI 功能的数据质量前提。一个根据账户数据生成个性化沟通内容的系统,只有在账户数据实时且完整时,才能按承诺运行。销售团队经常在某个战略账户发生高调失败后,才发现这种联系。

运维团队假设零维护负担。 运维团队习惯于在出现故障前能一致工作的软件,一旦出故障,工程师就会修复它。AI 系统有一种不同的失效模式:隐性降级(Silent Degradation)。

随着上游数据的变化、供应商静默更新基础模型,或者实际用户输入偏离系统设计的分布,模型的行为会随着时间的推移而发生偏移。这种降级不会触发错误页面或 Pager 警报。它表现为输出质量的逐渐下降,而运维团队没有检测这种下降的框架。

运维团队也一直低估了持续的维护负担。他们计划的是功能发布,而不是保持 AI 功能持续交付价值所需的监控、提示词调整和评估(Eval)重跑的循环周期。

为什么标准的项目启动会议无法解决这个问题

应对利益相关者对齐挑战的典型反应是增加更多的启动会议、更多的文档和更多的 Confluence 页面。这对于 AI 能力沟通行不通,原因有二。

首先,AI 系统的失败模式很大程度上是不直观的。你可以在文档中解释模型“偶尔可能会产生错误的输出”,每个人都会点头并继续,因为他们已将该陈述映射到了他们对软件 Bug 的心理模型中——罕见、可修复、可检测。实际的失败模式则不同:频繁、分布广泛、有时在没有领域专业知识的情况下无法检测,且无法通过重启服务来修复。

其次,抽象的能力陈述不会改变行为。告诉法务系统是“概率性的而非确定性的”,并不会改变他们审核输出的方式,直到他们亲眼看到这在实践中意味着什么。告诉运维系统“需要持续监控”,并不会改变他们的员工配置模型,直到他们经历过一次降级事件。

真正有效的是一种由两部分组成的方法:使限制具体化的结构化能力简报,以及使失败模式可见的校准演示。

能力与限制简报

在任何 AI 功能发布之前,每个利益相关者团队都应该收到一份单页简报,回答五个特定问题:

该系统能可靠地完成什么? 给出具体的成功率及其定义。“该系统起草的客户邮件回复采纳率为 88%,这里的采纳是指销售代表在修改少于 10 个词的情况下发送了草稿。” 像“辅助邮件写作”或“缩短响应时间”这样含糊不清的说法,无法让利益相关者判断系统在生产环境中的表现是否符合预期。

该系统会在哪些方面失败? 列出具体的失败模式,不是作为法律免责声明,而是作为操作指南。“当被问及当前目录以外的功能时,系统经常会编造产品特性。当用户的账户语言设置与消息语言不匹配时,有时会产生错误语言的输出。对于超过 800 字的请求,性能会显著下降。” 这种程度的细致描述才能让团队围绕系统构建适当的工作流关卡。

失败的具体表现是什么? 包含一个来自测试的真实失败案例。不是理论上的,而是系统生成的实际错误输出。这是大多数工程团队会跳过的部分,因为这感觉像是在宣传产品的弱点。确实如此,但还是要去做。法律和合规团队会根据具体的失败案例建立审核流程,而抽象的风险描述永远无法达到这种效果。

前提条件是什么? 明确说明系统在达到所述可靠性时所需的条件。“系统需要完整的账户数据:缺失行业分类会将采纳率降低到 62%。” 销售和运营团队需要这些前提条件来管理预期并正确配置他们的工作流。

你如何知道它什么时候出故障? 为每个利益相关者团队提供一两个观察指标,以便在退化演变成危机之前将其暴露出来。让这些指标在他们已有的仪表盘中可见,而不是需要他们刻意去检查的新工具。

校准演示不是常规演示

标准的 AI 演示其实是一种负债。它是经过精心策划的,旨在干净的数据和团队排练过的场景中展示系统的最佳状态。每个参会者带着一种对可靠性的印象离开,而这种印象在初次接触生产环境时就会破灭。

校准演示(Calibration Demo)的结构则不同。它首先展示成功案例,然后刻意展示失败案例。“这是好的输出。现在,看看系统在处理带有过时行业数据的账户时会怎么做。当请求含糊不清时,它会怎么做。当系统的上下文窗口(context window)接近满载并开始截断对话的前半部分时,会发生什么。”

量化至关重要。“这个系统的准确率为 87%。这就是那 13%。” 这句话的力量远超任何关于概率输出的文档。利益相关者看到失败案例后的反应,会告诉你是否达成了共识。如果法务的反应是“没关系,我们可以为这些情况建立一个审核关卡”,那么你就成功了。如果他们的反应是“我们不能发布会出这种问题的产品”,那么你就在它变成生产事故之前找到了阻碍因素。

在校准演示期间,还要展示运营层面的全景:监控仪表盘、告警阈值、报告性能退化的流程。运营团队需要看到有一套检测和响应失败的系统,而不仅仅是一个扔给他们的功能。

面向非技术团队的运营操作手册

工程团队编写的系统文档通常是给工程师看的。AI 功能的生产操作手册(Runbook)需要一个独立的、平行的版本,专门为围绕它运行的团队编写。

这份手册应该定义三件事:

范围界限。 一份清晰的清单,列出系统应该和不应该用于什么。用使用该系统的团队的语言编写,而不是技术术语。“该系统的用途:初步沟通草案、批量内容生成、常规支持回复。严禁将该系统用于:法律承诺、关于产品定价或可用性的声明、未经人工审核地与指定大客户进行沟通。” 系统无法强制执行这些界限,需要围绕它操作的人员来执行。

升级触发点。 应该触发向工程部门报告的具体可观察条件。“如果你发现系统使用了产品目录中不存在的产品名称 —— 请报告。如果一个团队草稿的采纳率在一周内降至 70% 以下 —— 请报告。如果系统在一天内产生三次以上相同的错误 —— 请报告。” 目标是建立一个从运营人员到工程部门的反馈渠道,且不依赖于运营人员理解底层模型。他们需要知道要观察什么,而不是为什么会发生。

失败常态化声明。 明确声明失败是在预料之中的,系统不会 100% 正确,并且处理失败的流程已经定义。这听起来显而易见,但却是最重要的组成部分之一。如果没有明确的“失败常态化”,第一次重大事故就会对整个系统产生不成比例的信任丧失,团队要么放弃该功能,要么带着无法挽回的负面描述将其升级到管理层。

沟通节奏

能力简报和运维手册是发布阶段的产物。在生产环境中保持预期的统一,需要一种持续的沟通机制。

工程团队与主要运营团队之间的每周跨职能同步会议,应包含对能力简报中各项指标的简要回顾——这并非因为出了问题,而是为了建立对“正常状态”的共同认知。当系统性能确实下降时,每周关注指标的团队能够将“正常波动”与“情况发生变化”区分开来,而初次看到这些数据的团队则无法做到这一点。

每月,每个利益相关方团队都应收到一份更新报告,内容涵盖:当前性能与预设成功率的对比、可能影响系统行为的任何变更,以及自发布以来发现的任何新故障模式。这不应是一份冗长的报告,而应是一个简短、结构化的更新,让利益相关方能在两分钟内读完。其目标是防止预期偏差——当利益相关方在没有工程团队输入的情况下,仅根据近期经验更新其心理模型时,就会发生这种偏差。

季度性的节奏应包括对能力简报本身的重新评估。系统的实际成功率是否发生了变化?是否发现了新的故障模式?前提条件是否有所改变?简报并非一次性的发布文档,它是对系统的动态描述,应当反映系统当前的真实状态。

这究竟改变了什么

建立这些沟通结构的工程领导者一致反馈了两个结果。首先,首个生产环境故障会被视作预期的运营事件而非危机,因为每个利益相关方团队都已经对故障的表现有了模型,并拥有一套应对流程。其次,组织内部 AI 功能的扩展速度会更快,因为对于能力的坦诚沟通(包括对故障的说明)建立了一种信任,这种信任是那些过度承诺但交付不足的试点项目无法企及的。

在内部 AI 应用中胜出的团队,并非那些演示效果最惊艳的团队。而是那些明确告诉每个利益相关方团队系统会出什么错、提供处理流程,并最终兑现承诺的团队。这是一个沟通纪律问题,而非技术问题,工程领导者无需等待模型改进即可解决。

拥有具备 AI 意识的领导力——即那些能将组织预期与技术现实相统一的公司——更有可能从 AI 投资中获取可衡量的价值。瓶颈始终不在于模型,而在于围绕模型展开的对话。

References:Let's stay in touch and Follow me for more thoughts and updates