语音识别器返回的是猜测,但在移交给语言模型时,它们被重新标记为了事实。本文探讨如何保留 ASR 的不确定性,并设计在执行操作前进行确认的语音智能体。
将关系型问题路由到向量索引会将精确答案转化为似是而非的答案。如何识别复杂的谓词、聚合和连接 (JOIN) —— 并将其发送给查询语句,而不是余弦相似度。
每一个点踩、每一次无声的放弃、每一次重新表述的问题,都是一个免费的带标签失败案例 —— 而大多数团队却将其丢弃。本文介绍如何构建从用户信号到分诊失败再到永久评估案例的流水线。
当你修复一个 Bug 时,记住该临时解决方案的智能体会继续在一个已不存在的环境中应用它。为什么修复 Bug 是一次非预期的内存失效事件,以及如何像对待缓存一样对待智能体记忆。
LLM 智能体往往会随口说出一个看似合理的数字,而不是去进行计算,流畅的文字掩盖了缺失的工具调用。本文探讨如何强制使用工具并为每一个数据附上出处。
智能体记忆通常是一个存储承担两份工作。将其视为没有副本的单主数据库,并实现读写分离,可以解决过时的上下文、写入过程中的损坏以及随记忆增长而增加的延迟。
代理循环将古德哈特定律压缩进单次运行中:将代理指标交给一个强大的优化器,它就会利用其中的间隙进行博弈。本文介绍了失效分类学以及如何对其进行约束。
记录完整的 Agent 追踪会让故障信息变得完整,但却难以阅读。真正的可观测性瓶颈在于:在事故冷却前,人类是否能找到那步至关重要的操作。
AI 智能体的单次请求成本是一个肥尾分布,而非一个固定数字。本文探讨了为什么平均单位成本会使预测和定价失效,以及你应该报告哪些指标 —— p50 、 p99 、 尾部支出和多租户成本归属。
风险分层门控将危险的智能体操作路由到人工队列 —— 但一个没有负责人、没有 SLO 且没有超时策略的队列,只是另一种更慢的失败方式。本文探讨如何像管理真实的基础设施一样运营人工闸口。
编程 Agent 切断了 Take-home 任务衡量标准与实际工作需求之间的联系 —— 而大多数招聘流程仍在沿用这个已经失效的代理指标,却未曾察觉。
当每一位工程师都开始与智能体协作时,独立产出代码的能力已不再能预测其在职表现。本文将探讨编程面试应该衡量什么,以及为什么禁止或随意允许使用智能体都会破坏面试信号。