跳到主要内容

AI 影子 IT:当产品团队构建自己的 LLM 代理时

· 阅读需 12 分钟
Tian Pan
Software Engineer

你所在的平台团队计划在第三季度调查的影子 IT 事件,其实早在 1 月份就已经发生了。情况大致是这样的:某个产品团队的一名高级工程师本月要发布产品。而平台团队的“官方” LLM 网关还在“下季度”的路线图中。于是,这位工程师用公司信用卡开通了 OpenAI 账号,将 API 密钥丢进 .env 文件,发布了功能,并赶上了公开的截止日期。发布非常成功。六个月后,FinOps 团队发现了三个无人认领的供应商账号,安全团队发现包含客户数据的 Prompt 被路由到了不受数据处理协议(DPA)保护的地区,而平台团队发现他们花了两个季度构建的网关只有 14% 的采用率,因为每个需要 AI 的团队都在没有它的情况下完成了发布。

这不是安全方面的失败,也不是纪律方面的失败。这是平台与产品交付速度之间的不匹配,如果将其视为其他任何问题,那么你发布的下一个网关注定会遇到同样的采用率问题。

2026 年的数据表明,这已经不再是一种罕见的模式。对知识型工作者的调查一致显示,超过 75% 的人在工作中使用生成式 AI 工具,其中大约一半的人从事安全团队无法感知的未经授权的 AI 行为。《2026 年 FinOps 状态报告》显示,98% 的受访者将 AI 支出列为管理项目——而两年前这一比例仅为极小一部分。尽管每 Token 成本下降了几个数量级,但企业平均 AI 预算已从 2024 年的每年 120 万美元增加到 2026 年的约 700 万美元,因为使用量的增长速度超过了折扣力度。这些数字描述的不是一个边缘问题,而是一个未能跟上其理应支持的需求的运营模式。

为什么非正式渠道在建立之初就能胜出

在非正式渠道上线的当天,平台团队的网关和产品团队的 .env 文件并不是在技术优劣上竞争。它们在三个摩擦面上竞争,而平台团队通常在这三个方面全面溃败。

首个 Token 时间(Time to first token)。 一个今天需要调用 LLM 的产品工程师希望在接下来的一个小时内就能实现调用。供应商注册、一张信用卡、一段复制粘贴的 SDK 示例代码就能帮他们达成目标。而一个需要 JIRA 工单、安全审查、基于团队的密钥发放流程以及内部 SDK 迁移的平台网关,无法在同一个小时内满足需求。等到网关准备就绪时,非正式渠道已经在生产环境中通过了压力测试,团队也已经围绕其特性完成了构建。

功能覆盖面(Capability surface)。 供应商的原生 SDK 在发布当天就会开放所有功能:新模型、新的工具调用格式、新的 Prompt 缓存断点、新的 Embedding 端点。而平台网关只开放筛选后的子集,落后供应商数周之久。对于依赖网关尚未代理的功能的特性,网关不再是约束——而成了阻碍。产品团队会正确地观察到网关对他们的用例“尚未准备好”,而非正式渠道成了唯一的出路。

故障归因(Failure attribution)。 当通过网关的请求失败时,工程师现在有两个系统可以埋怨,有两个值班流程需要处理。而当通过供应商原生 SDK 的请求失败时,只有一段堆栈跟踪和一个状态页面。在事故中,网关是你必须首先证明其清白的一层。工程师通过将最核心的业务路径绕过网关来应对这种激励机制。

平台团队的直觉是将非正式渠道视为纪律问题并加以禁止。非正式渠道之所以存在,是因为在做决策的那一刻,平台的摩擦力高于替代方案。在不降低摩擦的情况下单纯禁止,只会让非正式渠道进一步转向地下。

当非正式渠道胜出时,到底会破坏什么

影子 LLM 代理带来的损害并非抽象。它在四个层面上复合叠加,而每一层都会在最初决定后的数周或数月内呈现在不同的团队面前。

成本归因变成考古。 FinOps 团队收到一张供应商发票,上面只有一行项目:每月 87,000 美元的 Token 支出,没有团队标签,没有按功能的明细,不知道哪 12 个服务占了账单的 90%。如果没有按请求的归因,就无法进行成本分摊(chargeback),无法标记某人编码助手中的失控循环,也无法评估哪些功能的单位经济效益是可行的。2026 年企业网关的标准是按请求进行成本归因,按团队、项目、客户和功能细分输入、输出和推理 Token——并将这些数据存档到可查询的存储中。影子账号在发布时没有任何这些功能。

审计追踪就是应用程序日志。 SOC 2、GDPR、ISO 27001 和《欧盟 AI 法案》等合规框架要求组织能够针对任何 AI 交互回答“哪个用户、针对哪个模型版本、在哪个日期、经谁授权,发送了什么 Prompt 以及输出了什么”。随着 2026 年 8 月《欧盟 AI 法案》对高风险系统的强制执行,罚金高达 3500 万欧元或全球收入的 7%,这个问题已不再是虚设。只有在应用程序显式记录的情况下,从应用程序代码直接进行的供应商调用才会存储 Prompt-Response 对,而且其格式需要合规团队反向工程才能查询,保留期限则受开发人员在发布之夜凌晨 2 点选择的默认值控制。而做得好的网关,会将这种记录作为调用的副产品。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates