你的客户成功团队无法消化的智能体发布节奏
客户将智能体的回答粘贴到支持聊天中,并要求人工代表进行确认。代表看着同一款产品,却给出了相反的说法。那天,客户并没有对智能体失去信心。他们是对公司失去了信心,因为公司的两个部门在同一个小时内告诉了他们两件截然不同的事情。
一切都没有出错。AI 团队在周二通过特性标志(feature flag)发布了一个提示词更改,到周四已推行至 100%,然后便继续下一项工作了。客户成功(CS)团队的赋能周期是按月进行的 —— 以前每个产品特性都是这样落地的,而且没人针对 AI 重新协商这一流程。CS 代表队列中的宏(macro)和公共网站上的 FAQ 文档描述的仍然是之前的行为。智能体是对的。代表根据他们掌握的文档也是对的。但公司表现得各说各话。
这种故障模式不会出现在 AI 团队关注的评估分数或参与度增量中。它会体现在 CSAT(客户满意度)、工单量、一个季度后的流失群组中,以及会议室里的对话中 —— 此时 CX(客户体验)负责人请求 AI 负责人请停止发布几周,以便他们的团队能够赶上进度。而 “我们做不到,这就是我 们的运作方式” 这个回答在技术上是正确的,但在运营上是站不住脚的。
没人决定的节奏脱节
大多数公司是无意中陷入这种境地的。AI 团队采用了特性标志、金丝雀发布和持续部署,因为现在 AI 产品就是这样构建的 —— 如果你按季度发布,就无法针对生产流量调整智能体。客户成功团队并没有改变。他们的赋能节奏是围绕发布日程设计的,该日程每四到六周上线重大功能,并提前准备培训材料,设有一个 CS 团队可以消化变更的发布窗口。
当这两者都很慢时,这两套节奏是可以协作的。当 AI 团队规模很小时,这也行得通,因为 CS 团队可以直接在 Slack 上询问创始工程师发生了什么变化。但当 AI 团队的部署速度开始超过 CS 团队的培训吞吐量时,这套体系就失效了。这种情况发生的时间比预期的要早 —— 通常是在 AI 团队人数超过四人并开始运行多个并行实验的那一周。
这种脱节很少是一个决定。它是因为缺乏决定。AI 团队的部署节奏加速了,因为技术允许这样做;CS 团队的赋能节奏保持不变,因为没人要求他们改变。这种错位是两个职能部门进行局部优化的无意识默认结果。当有人注意到时,这种差距已经消耗客户信任好几个月了。
AI 团队衡量什么,CS 团队衡量什么
AI 团队通过评估分数、A/B 测试增量和参与度指标来衡量发布的成功。一个新的提示词要么提高了针对留存集(held-out set)的胜率,要么没有。一个新工具要么被更频繁地调用并产生更好的结果,要么没有。仪表盘是定量的,周期以天计算。
CS 团队衡量的是工单量、解决时间、CSAT,以及他们的代表所用的宏与现实情况的匹配程度。这些指标中没有一个会出现在 AI 团队的仪表盘上。AI 团队的指标也不会出现在 CS 的仪表盘上。这两个职能部门运行在不同的遥测系统上,关注不同的层面,且互不协调。
最糟糕的情况是,两个团队按各自的指标看都在取得成功。AI 团队的评估分数上升了两个百分点。CS 团队的工单增加了 15%。两个团队都报告项目处于绿色健康状态。而这种交集 —— 即工单增加是评估分数提升的下游结果,因为新的智能体行为与文档记录相悖 —— 在任何一个仪表盘上都是不可见的。
这是组织失败背后的数据架构失败。如果任何一方的指标都没有体现出另一方承担的成本,那么仅通过查看遥测数据就无法检测到协调问题。它只能通过与客户沟通来发现,而这是一个比任何团队习惯的反馈循环都要慢得多的过程。
行为变更日志:一种协调契约
第一个具体的改进方案是将智能体表现出的行为变更视为一等发布工件(first-class release artifact),并建立一个专门针对 AI 团队下游消费者的动态(feed)。这不是在 AI 团队频道里的 Slack 提醒,也不是没人参加的工程部冲刺评审中的一行文字。而是一个结构化的动态 —— 称之为“行为变更日志(behavior changelog)” —— 它在发布前留有足够的置信时间,让 CS 能够更新宏、培训代表并在流量提升到 100% 之前向一线人员通报情况。
这种自律比听起来要难,因为它要求 AI 团队用平实的文字清晰地表达哪些行为会发生变化。“我们更新了退款处理提示词” 这种描述是不合格的。“从周四开始,对于延迟超过 48 小时且金额超过 50 美元的订单,智能体将提供部分运费退款,而不是转接给人工,” 这才是合格的描述。后者是 CS 更新面向代表的宏和公共 FAQ 所需要的。前者是 AI 团队自然会写出的内容,但 CS 团队无法据此采取行动。
从提示词差异(prompt diff)到行为差异(behavior diff)的转化是一种不同于编写提示词的技能。这与技术文档撰稿人将 API 变更日志转化为 SDK 用户版本说明(release note)的技能相同。对待这项工作要专业:设立专门的角色,或者至少在发布流程中增加一个专门的步骤,连接工程变更和下游消费者。
CS 确认门控
一个无人阅读的动态流(feed)并不是一种协作机制。第二个解决方案是一个门控:在 CS 团队确认并更新相应的产出物之前,行为变更不会应用到 100% 的流量。
这听起来像是放慢了 AI 团队的速度。实际上,它减慢 AI 团队速度的程度,恰恰是原本就该减慢的程度——即公司其他部门吸收这一变更所需的时间。它还迫使 AI 团队根据下游消费者的吸收率来衡量其变更规模,而这正是他们一直以来所忽略的约束。
- https://mainsailpartners.com/the-ai-launch-gap-why-faster-shipping-isnt-enough-if-your-go-to-market-cant-keep-up/
- https://www.horsesforsources.com/stop-guessing-your-ai-velocity-gap-start-measuring-it-before-mkt-measures-you_102125/
- https://www.parloa.com/blog/ai-failures-cx/
- https://www.releasepad.io/blog/ai-agents-are-reading-your-changelog-what-that-means-for-product-teams/
- https://writer.com/blog/ai-agent-transparency-requirement/
- https://www.leandata.com/resources/gtm-strategy-execution-gap/
- https://devrev.ai/blog/common-customer-support-challenges
