当工具的返回值是 ID、路径或 URL 时,它实际上是在让智能体去做一次解引用。但模型何时解析、何时直接"假装已解析"地继续往下编,这套策略是隐式的、不一致的、悄无声息地出错的。把这层间接寻址显式地写进类型里。
AI 编码 Agent 提交 PR 的速度已经远远超过人类阅读它们的速度,让审查者成为整个系统的速率限制器。风险分级自动合并、审查预算、AI-on-AI 预审是团队让吞吐量保持诚实、避免把没读过的代码橡皮图章式地推进生产的方式。
Agent 提交了干净的 PR,描述却是空的;异步评审因此失灵 —— 推理过程藏在脚手架早已丢弃的提示词里。
你 AI 功能的 prompt 日志,是手里分辨率最高的产品发现信号——也是产品团队没人在读的那一份。这里是把它挖成未满足需求清单的方法。
隐私脱敏可以保留分类准确率,却悄悄破坏多步骤智能体所依赖的实体连续性。修复的关键不在于占位符是否存在,而在于它们的作用域如何划定。
一个 staging agent 给真实客户发了邮件,原因仅仅是工具注册表里有一个工具持有生产凭证。为什么沙箱现在是每个工具的属性,以及在事故发生前捕捉凭证层级漂移的证明模式。
微调让模型学会像你的语料库一样表现——包括其中的错别字、犹豫语气和某位客服的口头禅。本文剖析这种继承是怎么发生的,以及能拦截它的那道整理工序。
Worker-critic 代理循环承诺向质量收敛,但很少真正兑现——验证器是一个随机策略,max-iterations 上限是披着质量门外衣的预算门,而能恢复终止性的模式都把满足曲面当作真正的架构问题来处理。
经过安全调优的 LLM 智能体会拒绝合法的运营方请求,因为模型分不清值班工程师和匿名用户。修复手段是架构性的——签名 runbook、能力令牌、运营方模式通道——而不是重新调校拒绝阈值。
Agent 会一头扎进部署冻结期、活跃事故和飘红的状态页执行多步计划——因为它读不到人类天然吸收的那些侧信道。这篇文章讲怎么补上这个洞。
按用户分配的 Token 预算往往在对话中途咬人最狠——静默截断、丢弃工具调用、模型回退都会被用户读成质量退化,而升级转化的对话从未发生。
转移率统计的是"沉默",而不是"得到帮助"。同一个数字可能意味着客户问题被解决了,也可能意味着客户已经流失—— 仪表盘没法分辨,直到队列报告出来。