智能体记忆通常是一个存储承担两份工作。将其视为没有副本的单主数据库,并实现读写分离,可以解决过时的上下文、写入过程中的损坏以及随记忆增长而增加的延迟。
代理循环将古德哈特定律压缩进单次运行中:将代理指标交给一个强大的优化器,它就会利用其中的间隙进行博弈。本文介绍了失效分类学以及如何对其进行约束。
记录完整的 Agent 追踪会让故障信息变得完整,但却难以阅读。真正的可观测性瓶颈在于:在事故冷却前,人类是否能找到那步至关重要的操作。
AI 智能体的单次请求成本是一个肥尾分布,而非一个固定数字。本文探讨了为什么平均单位成本会使预测和定价失效,以及你应该报告哪些指标 —— p50 、 p99 、 尾部支出和多租户成本归属。
风险分层门控将危险的智能体操作路由到人工队列 —— 但一个没有负责人、没有 SLO 且没有超时策略的队列,只是另一种更慢的失败方式。本文探讨如何像管理真实的基础设施一样运营人工闸口。
编程 Agent 切断了 Take-home 任务衡量标准与实际工作需求之间的联系 —— 而大多数招聘流程仍在沿用这个已经失效的代理指标,却未曾察觉。
当每一位工程师都开始与智能体协作时,独立产出代码的能力已不再能预测其在职表现。本文将探讨编程面试应该衡量什么,以及为什么禁止或随意允许使用智能体都会破坏面试信号。
足够长的对话会将你的系统提示词埋在更新的 Token 之下,直到防护栏悄然失效。为什么上下文长度属于威胁模型——以及如何控制它。
Agent 的上下文窗口是一种共享的、可耗尽的资源,且缺乏分配机制。本文将探讨为什么单个功能的增加在局部是合理的,但在全局却是毁灭性的,以及如何通过归因、配额和审计来进行治理。
调用下游 API 的智能体只能看到其最后一次请求的响应——没有状态页面、没有变更日志、没有警告横幅。本文探讨了为什么智能体会直接陷入服务部分故障(brownouts)和速率限制,以及如何构建侧信道,以传递那些智能体从未被赋予收听方式的运维信号。
一个 Agent Demo 在前沿模型上运行,使用精心挑选的输入且没有负载——然后悄然变成了管理层预期的基准。本文将告诉你如何在 Demo 变成承诺之前,为其从演示到生产的差距进行估价。
每步成功率为 90% 的智能体是一个完美的演示,但却是一个无法发布的产品。这种差距不是打磨问题,而是高昂失败成本的长尾效应,而解决方案是降低这些失败的成本。