跳到主要内容

14 篇博文 含有标签「safety」

查看所有标签

为自主 AI 智能体设计审批门禁

· 阅读需 11 分钟
Tian Pan
Software Engineer

大多数代理 (Agent) 故障并非以“爆炸”这种显式方式发生。它们往往是悄无声息的。代理删除了错误的数据记录,给客户发送了过时的信息,或者重复执行了一个已经成功的支付操作 —— 而你直到两天后收到支持工单 (Support Ticket) 时才会察觉。其根本原因几乎如出一辙:代理拥有对生产系统的写入权限,但在“决定行动”与“执行行动”之间缺乏检查点。

审批门禁 (Approval Gates) 是应对这一问题的工程化方案。这里指的不是那种没人看的合规复选框(即弹窗),而是真正的架构中断点 —— 它们能够暂停代理的执行,序列化状态,等待人工决策,然后干净利落地恢复运行。如果设计得当,它们能让你部署具有真实自主权的代理,而无需在每一次推理调用中都拿生产数据去冒险。

生产环境中的 LLM 护栏:哪些方法真正奏效

· 阅读需 10 分钟
Tian Pan
Software Engineer

大多数团队在发布他们的第一个 LLM 功能后,会在生产环境中因糟糕的输出而受挫,然后紧急加上护栏进行损害控制。结果是一个脆弱的系统,它会阻止合法的请求,减慢响应速度,并且在关键的边缘情况下仍然失效。护栏值得做好——但天真的方法会以你意想不到的方式伤害你。

以下是实际的权衡取舍,以及如何构建一个不会悄悄破坏你产品的护栏层。