博客

Page 23

12 articles

停不下来的 Agent：作为运行时故障模式的范围蔓延
Agent 修复了 Bug，然后继续运行——重构周围的代码、扩大范围、消耗大量 Token。这是一份关于在范围蔓延演变成静默故障模式之前，如何为 Agent 任务设计停止标准、步数预算和“完成”信号的指南。
agentsai-engineering
5月21日9 min
用户终将学会忽略的置信度评分
LLM 回答旁边的置信百分比是一份你通常无法兑现的信任契约。在经历了几次失准的 90% 评分后，用户便学会了忽略这个测量计——而摆在面前的只有三种诚实的设计方案。
calibrationllm
5月21日12 min
演示成功是因为有人在看：会话长度是你的评测套件遗漏的那个维度
五轮的演示掩盖了在第二十八轮才会出现的误差累积、注意力漂移和承诺粘性。把会话长度当作一等评测维度来对待，否则你交付的可靠性数字，用户其实已经见过它的另一个版本。
insiderai-engineering
5月21日11 min
语义过时的 Embedding：当向量不再理解当下
随着现实世界的词汇演变，嵌入式知识库正在悄然失效。召回率仪表板往往会忽略这一点，因为它们仍基于过时的相似性定义进行评分。
insiderrag
5月21日10 min
填充式工具调用：当智能体在表演勤奋而不是真正干活
生产环境中的智能体不断发出对答案毫无影响的工具调用——烧掉 token、拖慢延迟、损害准确率。本文讲清楚填充式调用是如何从训练中长出来的、它真正的成本是多少，以及如何用反事实测量和调用预算把它从工作流里剔除出去。
insiderai-agents
5月21日11 min
聚合指标隐藏的首次用户断崖
AI 功能的聚合指标往往看起来健康,但新用户却在一两次尝试后就流失。本文剖析首次用户断崖如何隐藏在你的指标中,以及消除它的几种模式。
insiderai-product
5月21日10 min
没人接线的紧急开关：因为功能从未失效
发布标志会被清理，但紧急开关不会。为什么每个 AI 功能都需要持久的运行时禁用机制、预先确定的备选链，以及一个明确标注了控制杠杆的运行手册。
ai-engineeringfeature-flags
5月21日11 min
你的智能体没读过的那条休假自动回复
大多数智能体堆栈按姓名而不是按角色呼叫真人 —— 一旦有人休 PTO，智能体就会和自动回复对打，直到值班同事注意到。
insiderai-agents
5月21日9 min
无人书写的工具调用授权层
你的网关检查‘是谁’。你的端点检查‘是什么’。但在你的智能体栈中，没有任何环节在检查模型最初是否被允许发起该调用。
ai-agentssecurity
5月21日10 min
你为单个智能体添加的工具，现在每个智能体都能用了
共享的工具注册表正悄无声息地将所有能力赋予每个智能体。只有基于单个智能体的白名单，而非工具目录本身，才是真正约束智能体行为的授权单元。
ai-agentstool-use
5月21日11 min
你删除的代码对你的编程 Agent 是不可见的
编程 Agent 会重新引入你昨天删除的代码，因为已删除的内容在仓库中没有留痕。这是一份记录 Agent 需要遵守的“否定决策”的实战指南。
insidercoding-agents
5月21日11 min
那个悄然演变成延迟敏感型服务的夜间批处理作业
随着一个又一个合理需求的加入，一个夜间批处理作业最终演变成了对延迟要求极高的服务。本文将探讨为什么批量推理和在线推理的优化目标截然相反，架构漂移如何导致隐蔽的故障，以及如何有针对性地进行重新架构。
insiderai-engineering
5月20日11 min

较新的博文

较旧的博文

Page 23

停不下来的 Agent：作为运行时故障模式的范围蔓延

用户终将学会忽略的置信度评分

演示成功是因为有人在看：会话长度是你的评测套件遗漏的那个维度

语义过时的 Embedding：当向量不再理解当下

填充式工具调用：当智能体在表演勤奋而不是真正干活

聚合指标隐藏的首次用户断崖

没人接线的紧急开关：因为功能从未失效

你的智能体没读过的那条休假自动回复

无人书写的工具调用授权层

你为单个智能体添加的工具，现在每个智能体都能用了

你删除的代码对你的编程 Agent 是不可见的

那个悄然演变成延迟敏感型服务的夜间批处理作业

关于 Tian Pan