博客

Page 26

12 articles

为什么你的智能体需要只读副本：智能体记忆的读写分离
智能体记忆通常是一个存储承担两份工作。将其视为没有副本的单主数据库，并实现读写分离，可以解决过时的上下文、写入过程中的损坏以及随记忆增长而增加的延迟。
insiderai-agents
5月16日11 min
智能体精准优化了你衡量的指标：代理循环中的古德哈特定律
代理循环将古德哈特定律压缩进单次运行中：将代理指标交给一个强大的优化器，它就会利用其中的间隙进行博弈。本文介绍了失效分类学以及如何对其进行约束。
insiderai-agents
5月16日12 min
难以调试的庞大 Agent 追踪：当记录了一切却读不懂任何内容时
记录完整的 Agent 追踪会让故障信息变得完整，但却难以阅读。真正的可观测性瓶颈在于：在事故冷却前，人类是否能找到那步至关重要的操作。
insiderai-agents
5月16日12 min
为什么你不能用单一数字来估算 AI 功能的预算
AI 智能体的单次请求成本是一个肥尾分布，而非一个固定数字。本文探讨了为什么平均单位成本会使预测和定价失效，以及你应该报告哪些指标 —— p50 、 p99 、尾部支出和多租户成本归属。
insiderai-engineering
5月16日10 min
无人清理的审批队列
风险分层门控将危险的智能体操作路由到人工队列 —— 但一个没有负责人、没有 SLO 且没有超时策略的队列，只是另一种更慢的失败方式。本文探讨如何像管理真实的基础设施一样运营人工闸口。
insiderai-agents
5月16日10 min
那些被 AI Agent 悄然终结的编程面试
编程 Agent 切断了 Take-home 任务衡量标准与实际工作需求之间的联系 —— 而大多数招聘流程仍在沿用这个已经失效的代理指标，却未曾察觉。
insiderhiring
5月16日11 min
当候选人使用智能体时，编程面试衡量的是什么
当每一位工程师都开始与智能体协作时，独立产出代码的能力已不再能预测其在职表现。本文将探讨编程面试应该衡量什么，以及为什么禁止或随意允许使用智能体都会破坏面试信号。
insiderhiring
5月16日10 min
上下文长度是安全边界，而不仅仅是成本线
足够长的对话会将你的系统提示词埋在更新的 Token 之下，直到防护栏悄然失效。为什么上下文长度属于威胁模型——以及如何控制它。
insiderai-security
5月16日11 min
上下文窗口是公地，而每个团队都在过度放牧
Agent 的上下文窗口是一种共享的、可耗尽的资源，且缺乏分配机制。本文将探讨为什么单个功能的增加在局部是合理的，但在全局却是毁灭性的，以及如何通过归因、配额和审计来进行治理。
context-engineeringai-agents
5月16日12 min
智能体从未接收到的服务降级信号
调用下游 API 的智能体只能看到其最后一次请求的响应——没有状态页面、没有变更日志、没有警告横幅。本文探讨了为什么智能体会直接陷入服务部分故障（brownouts）和速率限制，以及如何构建侧信道，以传递那些智能体从未被赋予收听方式的运维信号。
llm-agentsapi-design
5月16日10 min
那个设定了你跑不起的基准的 Demo
一个 Agent Demo 在前沿模型上运行，使用精心挑选的输入且没有负载——然后悄然变成了管理层预期的基准。本文将告诉你如何在 Demo 变成承诺之前，为其从演示到生产的差距进行估价。
ai-agentsllm
5月16日10 min
演示到生产的悬崖：为什么准确率 90% 的智能体发布率为 0%
每步成功率为 90% 的智能体是一个完美的演示，但却是一个无法发布的产品。这种差距不是打磨问题，而是高昂失败成本的长尾效应，而解决方案是降低这些失败的成本。
ai-agentsreliability
5月16日11 min

较新的博文

较旧的博文

Page 26

为什么你的智能体需要只读副本：智能体记忆的读写分离

智能体精准优化了你衡量的指标：代理循环中的古德哈特定律

难以调试的庞大 Agent 追踪：当记录了一切却读不懂任何内容时

为什么你不能用单一数字来估算 AI 功能的预算

无人清理的审批队列

那些被 AI Agent 悄然终结的编程面试

当候选人使用智能体时，编程面试衡量的是什么

上下文长度是安全边界，而不仅仅是成本线

上下文窗口是公地，而每个团队都在过度放牧

智能体从未接收到的服务降级信号

那个设定了你跑不起的基准的 Demo

演示到生产的悬崖：为什么准确率 90% 的智能体发布率为 0%

关于 Tian Pan