计算机使用智能体之所以失败,通常不是因为定位错了元素,而是因为在观察和执行动作之间屏幕发生了移动。本文探讨了屏幕状态偏移以及重新定位如何解决这一问题。
“评估工程师”(eval engineer)这个头衔在两年前还不存在,因此没有职级标准,也没有完全匹配的简历。围绕真实的失败案例来定义岗位,筛选候选人的判断力而非工具使用能力,从 QA 和平台工程团队进行侧向招聘,并在发出录取通知前先写好职级阶梯。
每个团队都在接入另一个 MCP Server,Agent 的工具表面在没有负责人、没有预算的情况下不断扩大,且每一轮对话都要支付 Token 税。本文探讨这种蔓延如何破坏选择准确性,以及什么样的策展纪律可以修复它。
一次生产事故追溯到了几周前修改的一个系统提示词(Prompt),由于当时没有 PR、没有审核人、也没有负责人。本文探讨了为什么提示词总是能绕过变更管理,以及如何在不降低迭代速度的前提下,将它们重新纳入审核流程。
为不稳定的网络设计的重试策略假设调用者是正确的。但 Agent 让调用者变成了不可靠的部分,盲目的重试会悄悄地将真实的 Bug 洗白成绿色的勾。
为填补数据集空白而生成的合成数据正悄然向均值收缩,抹去了你所需要的稀有案例。本文将探讨为什么逐例质量检查会忽略这一问题,如何衡量集合层面的多样性,以及如何将生成过程锚定在真实数据上。
设置上下文窗口分配(历史记录 vs 检索结果 vs 工具输出)的那行代码,是隐藏在 f-string 中的产品决策。本文将介绍如何将其显性化、衡量它,并为其指定负责人。
语音识别器返回的是猜测,但在移交给语言模型时,它们被重新标记为了事实。本文探讨如何保留 ASR 的不确定性,并设计在执行操作前进行确认的语音智能体。
将关系型问题路由到向量索引会将精确答案转化为似是而非的答案。如何识别复杂的谓词、聚合和连接 (JOIN) —— 并将其发送给查询语句,而不是余弦相似度。
每一个点踩、每一次无声的放弃、每一次重新表述的问题,都是一个免费的带标签失败案例 —— 而大多数团队却将其丢弃。本文介绍如何构建从用户信号到分诊失败再到永久评估案例的流水线。
当你修复一个 Bug 时,记住该临时解决方案的智能体会继续在一个已不存在的环境中应用它。为什么修复 Bug 是一次非预期的内存失效事件,以及如何像对待缓存一样对待智能体记忆。
LLM 智能体往往会随口说出一个看似合理的数字,而不是去进行计算,流畅的文字掩盖了缺失的工具调用。本文探讨如何强制使用工具并为每一个数据附上出处。