跳到主要内容

15 篇博文 含有标签「human-in-the-loop」

查看所有标签

升级协议:构建不丢失状态的智能体到人工接管流程

· 阅读需 13 分钟
Tian Pan
Software Engineer

当客服专员收到包含原始聊天记录的 AI 到人工移交时,准备解决问题所需的平均时间为 15 分钟。专员必须在 CRM 中查找客户、查询相关订单、计算购买日期,并重新推导 AI 已经确定的内容。而当同样的移交以结构化负载(Payload)的形式到达时——包含操作历史、检索到的数据以及触发升级的确切歧义点——准备时间会缩短至 30 秒。

这种手动工作量减少 97% 的情况并非极端案例。这正是能够真正支持人工监督的升级协议,与仅仅将上下文抛给恰好在值班人员的协议之间的区别。

为自主 AI 智能体设计审批门禁

· 阅读需 11 分钟
Tian Pan
Software Engineer

大多数代理 (Agent) 故障并非以“爆炸”这种显式方式发生。它们往往是悄无声息的。代理删除了错误的数据记录,给客户发送了过时的信息,或者重复执行了一个已经成功的支付操作 —— 而你直到两天后收到支持工单 (Support Ticket) 时才会察觉。其根本原因几乎如出一辙:代理拥有对生产系统的写入权限,但在“决定行动”与“执行行动”之间缺乏检查点。

审批门禁 (Approval Gates) 是应对这一问题的工程化方案。这里指的不是那种没人看的合规复选框(即弹窗),而是真正的架构中断点 —— 它们能够暂停代理的执行,序列化状态,等待人工决策,然后干净利落地恢复运行。如果设计得当,它们能让你部署具有真实自主权的代理,而无需在每一次推理调用中都拿生产数据去冒险。

生产环境中的 AI Agent 自主性度量:数据实际揭示了什么

· 阅读需 8 分钟
Tian Pan
Software Engineer

大多数构建 AI Agent 的团队花费数周时间进行部署前评估,却几乎不测量 Agent 在生产环境中实际的行为。这正好本末倒置了。真正重要的指标——Agent 无监督运行的时长、寻求帮助的频率、承担的风险程度——只有在运行时,跨越数千个真实会话之后才能浮现。不去衡量这些,等于盲目飞行。

一项针对数千次生产部署和软件工程会话的大规模研究,揭示了一些真正令人意想不到的发现。呈现出来的图景,与大多数构建者的预期大相径庭。