博客

Page 39

12 articles

Agent 降级模式规范是你没有撰写的文档
大多数生产环境中的 Agent 都有降级模式规范——它只是散布在零散的 catch 代码块中，从未经过测试，而客户会在下一个糟糕的日子里为你写下它的公开版本。
agentsreliability
4月27日12 min
智能体灾难恢复：当工作记忆随区域一同失效时
智能体运行时将状态隐藏在你的灾难恢复（DR）手册从未提及的地方。解决方案是：明确状态范围、在任务作用域内生成幂等键、在每次工具调用前设置检查点，并优先选择安全中止（fail-safe abort）而非向前重放（fail-forward replay）。
insiderai-engineering
4月27日14 min
智能体事件取证：在需要之前即刻捕获
当智能体误发退款时，你的首席营收官（CRO）会询问原因——而答案需要你在写入时捕获的元组：提示词、模型 ID、解码配置、工具结果以及对话历史。本文介绍了如何通过工程纪律让“我们可以重构现场”成为现实。
ai-engineeringobservability
4月27日12 min
输出即有效载荷：你的 AI 威胁模型只守住了一半边界
AI 威胁模型通常止步于模型本身，并将输出视为安全内容。间接提示词注入将渲染的 Markdown、结构化输出、生成的代码以及工具调用参数转化为攻击载荷——而真正值得防御的边界其实位于模型的下游。
ai-securitythreat-modeling
4月27日11 min
智能体权限提示存在习惯化曲线，而你的安全叙事就建立在其斜率之上
权限提示是一种具有可衡量半衰期的安全控制手段。你应该跟踪每个用户的审批率，根据爆炸半径对摩擦力进行分层，并停止让 100% 的点击率作为你安全叙事的唯一支撑。
insiderai-agents
4月27日11 min
你的 Agent 发布说明只是在列出文件，但集成商需要的是行为差异（Behavior Diffs）。
每次 Agent 发布都包含系统提示词、模型、工具、评分标准和检索器的变更集合——而基于文件差异的变更日志无法告诉集成商任何关于行为转变的信息，而这些转变才是他们真正需要解析、制定预算或导致系统报警的关键。
ai-engineeringagent-versioning
4月27日14 min
Agent 追踪采样：当 “记录所有内容” 耗费 8 万美元却依然漏掉性能退化时
请求级的采样策略对 Agent 追踪已不再适用。采用分层策略——始终追踪失败、对成功请求进行头部采样、按成本百分位进行尾部采样——能将追踪存储从预算黑洞转变为有效的事件响应工具。
insiderllm
4月27日11 min
你的 Prompt 发布得像个牛仔：为什么代码审查的严谨性没能延伸到 AI 交付物
一个四行的 Bug 修复要经过三轮代码审查，而一个四十行的 System Prompt 修改却只要一个 LGTM 就能发布。这是一份在下一个回归问题出现前，弥合 AI 交付物规范差距的实战指南。
llmcode-review
4月27日13 min
Demo 只是一个随机种子：为什么你的 AI 发布面临的是方差问题，而非润色问题
那个令人惊叹的 Demo 只是模型针对同一输入生成的数千种可能性中的一次实现。产品发布之所以受挫，并非因为缺乏“润色”，而是因为没人测量过方差。本文将介绍如何通过 n-of-k 采样、最坏情况输入库和分布偏移检查清单来弥补这一差距。
insiderai-engineering
4月27日13 min
AI 功能之间隐藏的边：当一次提示词编辑导致其他三个团队的性能回退时
AI 功能通过无人记录的产物进行组合 —— 提示词片段、评估种子、裁判准则。当一个共享的编辑生效时，其他三个团队的性能发生了回退，却没人能追溯原因。本文将教你如何绘制这个图谱。
ai-engineeringplatform-engineering
4月27日11 min
你的 AI 功能说明文档是运行时依赖，而非营销文案
当 Prompt 发生变化而帮助中心文章没有更新时，你的 AI 功能信任契约就会悄然失效 —— 而 Prompt 仓库可以预测这种差距。
ai-engineeringdocumentation
4月27日13 min
你的 AI 功能灰度发布正沿着错误的轴线进行
基于用户百分比的功能标志会将那 5% 的疑难查询均匀分布在不同人群中，从而掩盖长尾回归，直到全量发布时才爆发。你应该转而按照难度、Token 长度、查询切片或工具调用深度进行灰度——这才是 AI 爆炸半径真正存在的维度。
ai-engineeringprogressive-delivery
4月27日13 min

较新的博文

较旧的博文

Page 39

Agent 降级模式规范是你没有撰写的文档

智能体灾难恢复：当工作记忆随区域一同失效时

智能体事件取证：在需要之前即刻捕获

输出即有效载荷：你的 AI 威胁模型只守住了一半边界

智能体权限提示存在习惯化曲线，而你的安全叙事就建立在其斜率之上

你的 Agent 发布说明只是在列出文件，但集成商需要的是行为差异（Behavior Diffs）。

Agent 追踪采样：当 “记录所有内容” 耗费 8 万美元却依然漏掉性能退化时

你的 Prompt 发布得像个牛仔：为什么代码审查的严谨性没能延伸到 AI 交付物

Demo 只是一个随机种子：为什么你的 AI 发布面临的是方差问题，而非润色问题

AI 功能之间隐藏的边：当一次提示词编辑导致其他三个团队的性能回退时

你的 AI 功能说明文档是运行时依赖，而非营销文案

你的 AI 功能灰度发布正沿着错误的轴线进行

关于 Tian Pan