跳到主要内容

你的 CS 团队构建了一个影子 Agent。这就是你的路线图。

· 阅读需 10 分钟
Tian Pan
Software Engineer

你支持团队的一位高级 CSM 花了一个周末搭建了一个内部 Slack 机器人。他们自己编写了系统提示词(system prompt),并将其指向了公开文档、Zendesk 已解决工单的导出数据以及变更日志(changelog)。六周后,它能回答团队以前需要手动输入的约 40% 的一级(tier-1)问题。你的工程团队架构中没人知道它的存在。当平台团队第一次发现它时,安全部门的人会问,为什么一个服务账号会在凌晨 3 点访问 Zendesk 的 API。

默认的反应是恐慌。封锁 API 令牌。发送一封关于未经授权 AI 的全公司邮件。在下一次治理审查中增加一张幻灯片。然后承诺平台团队将在下个季度,按照正式的路线图(roadmap)构建“官方版本”。

这种反应忽略了实际发生的情况。CS 团队并没有擅自行动 —— 他们构建了一个工程团队尚未交付的产品的可用原型。他们拥有真实的反馈数据、真实的提示词迭代周期和真实的用户反馈。而你的平台路线图里这些都没有。将这个机器人视为合规违规行为,会丢掉你的 AI 计划今年能获得的最准确的优先级信号。

影子 AI 是新时代的影子 IT,我们以前经历过这种事

这种模式已有 20 年的历史。在 SaaS 时代,销售团队违背 IT 部门的意愿采用了 Salesforce,营销团队用个人信用卡支付了 HubSpot,设计团队偷偷引入了 Figma。等中央 IT 部门注意到时,这些工具已经成为了业务的支柱。胜出的公司是那些调查了未经授权的使用情况、认可了重要的工作流,并将剩余部分纳入受监管基础设施的公司。失败的公司则花了两年时间构建低劣的内部替代方案,眼睁睁地看着高效团队离职。

影子 AI 正在以更快的速度重演同样的戏码。行业调查显示,超过 40% 的企业 SaaS 位于正式 IT 审批之外,最近的报告表明,近一半的客户服务人员现在使用其雇主未批准的 AI 工具。这个数字并不是治理失败 —— 它衡量了官方工具落后于员工实际工作的严重程度。禁令无法解决问题。一项医疗行业的研究发现,在正式禁止后,近一半的员工仍继续使用个人 AI 账号,唯一真正改变行为的干预措施是提供一个能胜任工作的经批准的替代方案。

有效的思维模型:影子 AI 是一个自下而上的产品发现渠道。像管理风险一样治理它,像挖掘需求一样挖掘它。失败的思维模型:影子 AI 是一个安全事件,每个案例都是要消除的东西,且工程团队有权决定 AI 路线图一直以来应该是什么样子。

CS 团队的机器人到底告诉了你什么

影子智能体是一个研究产物,它回答了四个你的路线图规划可能还没回答的产品问题:

哪些工作流的体量足以证明开发功能的必要性。 CS 团队没有选择一个华而不实的用例。他们选择了每天要做五十次的事情。如果 40% 的一级工单可以由连接到文档和历史工单的内部 Slack 机器人解决,你现在就知道 —— 无需进行探索冲刺(discovery sprint) —— “Slack 原生工作流中的一级工单拦截”是一个真实的产品。行业数据支持了这一点:企业 CX 计划的一级工单拦截率中位数超过 40%,前 25% 的企业已接近 60%。

哪些知识源真正重要。 CS 团队并没有把机器人连接到他们有权访问的每个维基页面。他们选择了文档、变更日志和已解决的工单 —— 因为这些才是包含答案的地方。平台团队的第一直觉通常是摄取整个知识图谱。CS 团队务实的精选名单才是官方版本检索索引的核心数据集。

哪些提示词迭代沉淀了下来。 系统提示词经过了几十次修改。每一次修改都是对 CS 团队在频道中看到的特定失败模式的回应。这些提示词历史是数月的人机回环(human-in-the-loop)微调,任何从零开始的平台团队都无法追回。这就是护城河。

失败模式集中在哪里。 CS 团队已经知道机器人会答错哪些类型的问题。他们知道当被问及企业级 SKU 时,它会自信地编造定价层级。他们知道它无法处理那些答案在两个文档版本之间发生变化的问题。这是一套评估集(eval set),否则工程团队需要花一个季度才能收集完成。

一个抹杀这些工作并从头开始重建的平台团队,是在丢弃现实世界的评估数据、有效的检索范围和经过测试的提示词 —— 然后还指望在六个月内交付更好的东西。在实践中,随后到来的平台构建的替代品通常比它杀掉的那个影子版本还要糟糕。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates