跳到主要内容

环境 AI 架构:设计不会被用户关掉的常驻智能体

· 阅读需 9 分钟
Tian Pan
Software Engineer

大多数团队构建的环境 AI,用户上线就关。

这个模式高度一致:团队内部演示功能,所有人都认为理论上有用,但上线两周内禁用率就超过 60%。这不是模型质量问题,而是架构问题——更具体地说,是打扰阈值问题。团队在设计环境智能体时,考虑的是 AI 能做什么,而不是用户在没有主动求助时能忍受什么。

从显式调用("问 AI")到环境监控("AI 观察并行动")之间的鸿沟,不只是 UX 问题。它需要从根本上不同的系统架构、不同的事件模型,以及关于 AI 智能体何时才算赢得发言权的不同心智模型。

架构分野:拉取 vs. 推送

传统 AI 助手是拉取式的:用户发起,模型响应,会话结束。每次交互都有边界。模型的上下文窗口是某一时刻的快照。对话结束后,AI 进入休眠。

环境智能体是推送式的。它们持续运行,订阅事件流——文件系统变更、日历事件、通信信号、监控指标——并自主决定何时将某件事浮出水面。上下文窗口不再是快照,而是用户环境的持续更新的物化视图。

这在架构上有几个重要的本质区别:

  • 状态必须跨会话持久化。 智能体需要记住三小时前观察到的内容,才能理解当下正在观察的内容。单会话上下文不够用;你需要持久的、流原生的状态存储。
  • 智能体处理的信号量远多于它会浮出的信号量。 聊天机器人对收到的所有内容都响应,因为用户只发送他们想要答案的内容。环境智能体每小时可能摄入数千个事件,却一次都不打扰用户。过滤就是产品。
  • 延迟要求是不对称的。 用户等待响应可以忍受 2-3 秒。环境智能体基于过时数据触发则破坏性得多——打扰发生在错误的时刻,依据的信息已经过时。

使用 Kafka 或 Pulsar 等消息代理的事件驱动架构能很好地处理这一问题,在规模下实现亚 100ms 延迟,并将观测层与行动层解耦。大多数团队忽视的是:架构是容易的部分。难的部分是打扰阈值。

打扰阈值问题

62% 的告警被接收团队忽视。SRE 团队将告警疲劳列为首要运营问题。知识工作者平均每 2 到 3 分钟被打扰一次,每次打扰后需要约 23 分钟才能重新进入专注状态。

这些数字早于环境 AI。它们描述的是人类对数字打扰的一般忍耐力。环境 AI 并非从零开始;它继承了用户对通知系统、推送提醒和自动纠错的所有负面联想。

打扰阈值问题有两种失败模式:

过于激进:智能体频繁打扰,每次打扰价值偏低,用户习惯性地不看就驳回建议。功能变成壁纸。更糟的是,用户开始将 AI 与噪音画等号,这会毒化未来更高价值信号的信任。

过于保守:智能体浮出的打扰极少,用户忘记它的存在。他们不会注意到智能体漏掉了重要内容。功能悄悄萎缩,不产生任何价值。

校准这一平衡不是提示工程问题。它是系统设计问题,需要显式的阈值逻辑、置信度门控,以及让系统随时间学习用户偏好的反馈机制。

设计事件管道

环境智能体需要三个独立层协同工作:观测、过滤与投递。

观测是大多数团队的起点,但也不是他们挣扎的地方。订阅事件、构建 webhook、读取文件系统变更——基础设施已经存在。问题在于你选择观测什么。观测范围过广的环境智能体在上游产生太多噪音。将观测层的范围严格限制在对用户关心的事情有可靠预测性的信号上,是第一道约束。

过滤是大多数实现失败的地方。原始事件流包含的潜在触发远多于你应该浮出的数量。有效过滤需要:

  • 置信度阈值,低于该阈值时智能体行动但不打扰。它可以记录笔记、更新内部状态或排队批量审查——但不应将低置信度观察作为实时打扰浮出。
  • 紧急度分类,将时间敏感信号(部署刚刚失败,会议两分钟后开始)与环境状态变更(代码库风格约定发生了变化,这个工单看起来和一个已关闭的类似)区分开来。
  • 对相关事件进行去抖动。如果同一底层条件在 30 秒内触发五个相关事件,那是一次打扰,不是五次。

投递是关于为打扰选择正确的渠道和格式。IDE 中以幽灵文本出现的建议与模态对话框是截然不同的打扰模式。前者在用户主动寻找之前占用零注意力;后者迫使用户停下来。时间敏感、高置信度的打扰值得推送通知。低严重度的观察应该放入用户选择时可以拉取的日志。

有效的模式是带分级升级的事件缓冲:低严重度事件静默排队,无需用户跟进即可到期;中等严重度事件批量汇总到定期摘要中;高严重度事件直接打扰。当今大多数环境 AI 功能完全跳过这一分类,把所有内容都放在最高层级。

三种人机协同模式

环境智能体在以下三种明确的人机协同模式之一运行时最有效,根据情况的利害关系和可逆性来选择:

通知:智能体检测到了值得了解的事情,但不需要或不应该采取行动。这是最常见的模式,也是最被低估的模式。许多团队默认要求用户做点什么,而不是单纯告知他们。通知模式以低成本赢得信任——它展示了感知能力,却不施加认知负担。

询问:智能体达到了一个决策点,需要人类输入才能改变结果。这种模式值得付出打扰代价,因为问题是具体的,决策有时间边界,用户的回答是重要的。提出模糊问题("这个相关吗?")的环境智能体会训练用户不看就点过去。提出带上下文的具体选择的问题则相反。

审阅:智能体即将采取行动,或者已经采取了一个需要用户确认的可逆动作。这是任何有非平凡后果的事情的正确模式——日程安排变更、通信、代码修改。审阅打扰代价高昂;它应该不频繁且始终是高价值的。

大多数团队没有区分这些模式,这就是为什么他们的环境智能体感觉像一个为每张工单都呼叫你的服务台。

什么让用户关掉它

用户关闭环境 AI 功能的原因,跨类别来看是一致的:

电池和性能损耗。 AI 驱动的上下文感知会使移动设备的待机功耗增加 18-24%。持续关闭它的用户报告电池续航提升 10-15%。降低设备性能的后台处理违背了基本的产品契约——功能的代价必须低于它带来的收益。

对现有工作的不当干预。 用户喜欢的照片上出现了相机自动校正。自动补全建议在思维进行中打断用户。设计审阅助手将刻意为之的选择标记为不一致。无法区分用户意图与用户失误的环境功能会被迅速关掉。

失去感知到的控制感。 当用户描述关掉环境 AI 功能时,用词很能说明问题:"手机感觉像是控制我的东西,而不是我控制的东西。"不透明地运行——采取用户未发起的行动,却没有清晰解释原因——的环境 AI 会引发这种反应。透明地告知智能体在做什么以及为什么这样做,不是锦上添花;而是区分可信工具与入侵进程的关键。

强制激活。 对所有用户默认启用环境功能、没有明确选择加入的产品,会系统性地摧毁信任。那些本会选择该功能的用户,现在感觉是被强加的,而不是为他们服务的。选择加入/选择退出的区别不只是道德问题——它是留存指标。

可观测层就是产品

长期存活的环境 AI 产品有一个共同的结构性特征:它们将可观测层视为一等功能,而不是调试工具。

一个活动日志——展示智能体观察到了什么、考虑过对什么采取行动、以及选择了浮出什么(以及为什么)——服务于多重目的。它建立用户对智能体判断的信心。它让高级用户能够调整阈值偏好。它在智能体出错时创造可追责性。它让智能体的沉默工作变得可见,从而防止"我忘了这个还在运行"的失败模式。

构建了这一层的团队最终发现一件反直觉的事:足够信任环境智能体、愿意让它持续运行的用户,会开始依赖它,最终注意到它不在了。跳过这一步的团队,上线的环境功能在两周内就变成了选择退出的功能。

环境 AI 中最难的架构决策,不是模型或事件基础设施。而是决定智能体不允许为什么而打扰用户——并在功能扩展时坚守这条线。

结论

环境 AI 在逐步赢得打扰权时才能奏效。架构需要支持持续观测而不是持续浮出。打扰阈值逻辑需要是显式的、可调的,且默认保守。人机协同模式需要清晰区分,可观测层需要让用户看到智能体在他们不在时做了什么。

把环境 AI 当成"一直运行的聊天机器人"的团队,会持续上线第二周就被用户关掉的功能。那些为最低工作量监督而设计的团队——人的介入放大而非加重决策——正在构建截然不同的东西:一个通过在适当时机发言来赢得发言权的 AI。

Let's stay in touch and Follow me for more thoughts and updates