跳到主要内容

你的 CS 团队构建了一个影子 Agent。这就是你的路线图。

· 阅读需 10 分钟
Tian Pan
Software Engineer

你支持团队的一位高级 CSM 花了一个周末搭建了一个内部 Slack 机器人。他们自己编写了系统提示词(system prompt),并将其指向了公开文档、Zendesk 已解决工单的导出数据以及变更日志(changelog)。六周后,它能回答团队以前需要手动输入的约 40% 的一级(tier-1)问题。你的工程团队架构中没人知道它的存在。当平台团队第一次发现它时,安全部门的人会问,为什么一个服务账号会在凌晨 3 点访问 Zendesk 的 API。

默认的反应是恐慌。封锁 API 令牌。发送一封关于未经授权 AI 的全公司邮件。在下一次治理审查中增加一张幻灯片。然后承诺平台团队将在下个季度,按照正式的路线图(roadmap)构建“官方版本”。

这种反应忽略了实际发生的情况。CS 团队并没有擅自行动 —— 他们构建了一个工程团队尚未交付的产品的可用原型。他们拥有真实的反馈数据、真实的提示词迭代周期和真实的用户反馈。而你的平台路线图里这些都没有。将这个机器人视为合规违规行为,会丢掉你的 AI 计划今年能获得的最准确的优先级信号。

影子 AI 是新时代的影子 IT,我们以前经历过这种事

这种模式已有 20 年的历史。在 SaaS 时代,销售团队违背 IT 部门的意愿采用了 Salesforce,营销团队用个人信用卡支付了 HubSpot,设计团队偷偷引入了 Figma。等中央 IT 部门注意到时,这些工具已经成为了业务的支柱。胜出的公司是那些调查了未经授权的使用情况、认可了重要的工作流,并将剩余部分纳入受监管基础设施的公司。失败的公司则花了两年时间构建低劣的内部替代方案,眼睁睁地看着高效团队离职。

影子 AI 正在以更快的速度重演同样的戏码。行业调查显示,超过 40% 的企业 SaaS 位于正式 IT 审批之外,最近的报告表明,近一半的客户服务人员现在使用其雇主未批准的 AI 工具。这个数字并不是治理失败 —— 它衡量了官方工具落后于员工实际工作的严重程度。禁令无法解决问题。一项医疗行业的研究发现,在正式禁止后,近一半的员工仍继续使用个人 AI 账号,唯一真正改变行为的干预措施是提供一个能胜任工作的经批准的替代方案。

有效的思维模型:影子 AI 是一个自下而上的产品发现渠道。像管理风险一样治理它,像挖掘需求一样挖掘它。失败的思维模型:影子 AI 是一个安全事件,每个案例都是要消除的东西,且工程团队有权决定 AI 路线图一直以来应该是什么样子。

CS 团队的机器人到底告诉了你什么

影子智能体是一个研究产物,它回答了四个你的路线图规划可能还没回答的产品问题:

哪些工作流的体量足以证明开发功能的必要性。 CS 团队没有选择一个华而不实的用例。他们选择了每天要做五十次的事情。如果 40% 的一级工单可以由连接到文档和历史工单的内部 Slack 机器人解决,你现在就知道 —— 无需进行探索冲刺(discovery sprint) —— “Slack 原生工作流中的一级工单拦截”是一个真实的产品。行业数据支持了这一点:企业 CX 计划的一级工单拦截率中位数超过 40%,前 25% 的企业已接近 60%。

哪些知识源真正重要。 CS 团队并没有把机器人连接到他们有权访问的每个维基页面。他们选择了文档、变更日志和已解决的工单 —— 因为这些才是包含答案的地方。平台团队的第一直觉通常是摄取整个知识图谱。CS 团队务实的精选名单才是官方版本检索索引的核心数据集。

哪些提示词迭代沉淀了下来。 系统提示词经过了几十次修改。每一次修改都是对 CS 团队在频道中看到的特定失败模式的回应。这些提示词历史是数月的人机回环(human-in-the-loop)微调,任何从零开始的平台团队都无法追回。这就是护城河。

失败模式集中在哪里。 CS 团队已经知道机器人会答错哪些类型的问题。他们知道当被问及企业级 SKU 时,它会自信地编造定价层级。他们知道它无法处理那些答案在两个文档版本之间发生变化的问题。这是一套评估集(eval set),否则工程团队需要花一个季度才能收集完成。

一个抹杀这些工作并从头开始重建的平台团队,是在丢弃现实世界的评估数据、有效的检索范围和经过测试的提示词 —— 然后还指望在六个月内交付更好的东西。在实践中,随后到来的平台构建的替代品通常比它杀掉的那个影子版本还要糟糕。

积极的回应:视其为影子 IT,而非违规行为

安全团队过去在影子 IT 上常犯的错误是将发现视为执法。这里要避免的错误也是一样。第一步是调研,而不是关停。问三个问题:

  1. 现在的机器人正在执行哪些工作流,团队在哪些工作流上依赖它?
  2. 它触及哪些数据源,使用什么凭据来触及它们?
  3. 谁在编辑提示词 (prompt),他们如何决定编辑是否有效?

答案直接指向积极的干预措施。产生实际价值的工作流会被提升到受支持的基础设施中。数据源会告诉你平台团队在第一天应该具备的检索范围。“谁在编辑提示词”的答案是最重要的——它确定了需要正式加入官方版本团队的领域专家 (SME),而不是交给一个从未读过 Zendesk 工单的平台工程师。

然后增加客服 (CS) 团队自身无法增加的界限:对机器人允许检索的内容进行数据分类,限定凭据范围使服务帐户只能读取而不能进行更多操作,建立审计日志以便复盘升级事件,以及针对客服团队已经记录的失败案例运行评估框架 (eval harness)。这些都不需要扼杀原型。所有这些都能使其更稳健。

对客服团队的措辞很重要。“我们要关闭你的并构建我们的”会将关系转变为敌对;客服团队会抵制官方版本,绕过它,而工程团队会花一年的时间思考为什么采用率毫无起色。“我们将采用有效的部分,赋予其所需的安全性与可靠性,并由你继续拥有提示词的所有权”,这样既保留了速度,保留了所有权,又给平台团队提供了一个可以改进的运作基准。

架构模式:两层,而非一层

吸收影子智能体 (shadow agent) 最简洁的方法是将其分为两层。第一层是平台层——凭据、检索、模型访问、可观测性、评估框架、审计日志。这是工程部门的工作,客服团队不需要考虑这些。第二层是工作流层——系统提示词、数据源简表、升级策略、响应风格、失败案例整理。这由构建原型的领域专家 (SME) 负责。

这与账本系统运作的模式相同,平台团队拥有流水账 (journal),业务团队拥有其账户语义。或者与功能开关 (feature flag) 平台运作的模式相同,工程部门负责开关插件,产品部门负责决定存在哪些开关。试图同时拥有这两层的平台团队最终会将每一次提示词编辑都卡在迭代周期中,而这正是产生影子智能体的摩擦源头。

这种模式的一个运作版本看起来像是一个经批准的内部“智能体运行时” (agent runtime),它暴露了一个受限的 API:从经过审核的数据源列表中选择,从批准的层级中选择模型,编写你的系统提示词,发布。客服团队的机器人成为该运行时的租户。下一个影子智能体——比如销售团队下季度要构建的用于起草客户研究报告的智能体——在第一天就会成为另一个租户,而不是半年后的一个惊吓。

组织信号:影子 AI 指明了你真正的路线图

对客服团队机器人的深层解读是,它是一张选票。每当一个非工程团队不顾治理而构建 LLM 工作流时,他们都在投票,表明哪些工作流目前最缺乏工具支持。如果工程组织的 AI 路线图与选票所在地没有交集,那么路线图就是错误的。

其中一些选票会让你感到惊讶。销售团队构建邮件草拟机器人——这在意料之中。但意想不到的地方才是杠杆所在:财务分析师构建了 Slack 机器人来分拣应付账款发票异常,招聘人员构建了一个机器人来总结跨面试小组的面试反馈,法律运营人员构建了一个机器人来根据清单标记风险合同条款。这些团队都不会为了一个要在第二年才轮到他们的 AI 路线图而等待。他们会去构建,问题在于你是通过调研还是通过事故报告来发现这一点。

领导层的做法是将发现过程正式化。让任何团队都能在不被惩罚的情况下低成本、快速地注册影子智能体。像 IT 部门进行 SaaS 审计一样,每季度进行一次“AI 工作流普查”。利用注册列表来确定平台投资的优先级——即那些最活跃的影子构建者下一步需要的运行时功能、数据连接器和评估原语。那些已经在构建的团队成为了平台团队的客户。这比平台团队闭门造车然后希望有人采用他们发布的东西要健康得多。

这种做法的前瞻性版本是:能够跨越 2026 年和 2027 年产生复利效应的 AI 项目,是将自身组织视为市场,将非工程团队视为用户的项目。影子智能体是该市场产生的最真实的调研。那些禁止它们的组织,是那些决定不阅读产品反馈的组织。那些将其纳入其中的组织,则构建了其他团队真正想要在其上进行构建的平台。六个月后,当管理层询问为什么你的 AI 路线图比竞争对手发布得更快时,答案将是你开始阅读这些选票。

References:Let's stay in touch and Follow me for more thoughts and updates