一夜之间 eval 分数下降了两个百分点,而包含 17 处修改的提示词 PR 应该是一个二分查找问题,而不是一场猜谜游戏。本文将介绍如何像内核维护者通过 bisect 调试内核一样来调试提示词 —— 以及这种方法对团队提交粒度要求的强制规范。
大多数数据分类方案从未将提示层(Prompt Layer)建模为厂商出口通道。增加一个 Prompt-Eligibility 层级——以及填充该层级的模板审计——可以填补你的 DLP 方案所默认忽略的合规漏洞。
提示词提取是对 LLM 产品的一种隐蔽攻击。应将系统提示词视为公开内容,将秘密移出上下文,并为其构建评估体系。
通过类似 CDN 的发布系统推送 prompt 时,如果一个区域领先于另一个区域,就会产生隐形的地理分割 A/B 测试。这里介绍了保持 prompt 版本全球一致性的发布规范、可观测性维度和回滚模型。
当你的 CLI 开始接受英语时,最小权限原则就失效了。每一个将意图转化为命令的封装层都变成了一个“混淆代理”。目前行之有效的模式包括:锚定已解析计划的意图绑定令牌、强制性模拟运行(dry-run)以及将提示词与动作图关联起来的审计追踪。
大多数 RAG 的失败并非模型失败,而是治理失败。本文探讨语料库治理的四个维度——法律、新鲜度、作者信任、所有权,以及决定你的检索索引是产品界面还是共享收件箱的索引策略规范。
生产环境中的 RAG 流水线往往默认检索与生成之间存在快照隔离。然而,由于从未真正强制执行,导致了已删除数据块被引用、已编辑数据块内容倒置以及过期权限泄露等 Bug。
你的工具目录加上规划器构成了一个可达的执行计划图,而你的评测(Evals)可能从未覆盖过这些路径。借鉴编译器的可达性分析方法,找出那些可能最先由事故频道(Incident Channel)发现的隐藏分支。
推理 Token 在账单上看起来像输出 Token,但其规模会膨胀 3-10 倍且没有自然上限。你应该将思维力度视为一种可调资源——通过产出来衡量,由预算来管理,按难度来路由,并在财务部门发问之前,将其作为仪表板上的独立细目进行展示。
大多数智能体框架在工具错误时默认使用指数退避重试 —— 这种模式借用自无状态的 HTTP,但在有状态的规划循环中是完全错误的。正确的默认做法应该是重新规划。
Agent 编写的 PR 与人类编写的 PR 相比,Bug 的分布位置有所不同,而经过多年人类代码训练的评审者直觉在面对它们时会悄然失效。本文将带你深入了解这种新的 Bug 特征,探讨为什么看似流畅的 Diff 是危险的,以及每位评审者现在必须共同阅读的三个关键工件。
AI 生成的偏好标签比人类标签便宜 100 倍 —— 它们教导你的模型去迎合裁判的审美,而不是你的用户。