如今 Prompt 对行为的影响已经超过了代码,但大多数团队仍在使用 2008 年时代的工具进行评审。本文介绍了五种 pre-commit hooks —— 格式化工具、静态检查器、密钥与 PII 扫描器、冒烟评估以及缓存影响评估器 —— 旨在以应有的严谨态度对待 Prompt 的修改。
当 PM、支持团队和销售开始通过阅读系统 Prompt 来了解产品功能时,这既是一种褒奖,也是一种结构性失效。本文将介绍如何保留有效的部分并修复其余问题。
每个生产环境的系统 prompt 都有三个作者 —— 工程、产品和 ML —— 而且他们对什么是“变更”各执一词。这里有一套结构化的解决方案。
规划器中四个词的修改,会导致下游验证器的通过率波动三个百分点。解决方案是将你的 Agent 提示词组合视为微服务网格——关注图谱、边、契约、爆炸半径 PR 审查、逐边回归评估以及边负责人。
基础模型提供商退役模型的节奏往往不在你团队的计划之内。将每次迁移视为一次性项目,意味着每年要支付三到四次相同的设置成本。相反,应该进行季度演练——指定负责人 (DRI)、候选模型、回归测试重跑、运行手册更新——这样当下一次弃用邮件寄达时,它只是团队既定节奏中的一部分。
一个 RAG 系统检索到了关于你四个月前已删除功能的文档,并自信地引导客户点击一个根本不存在的按钮。评估指标依然显示绿色。本文将探讨为什么检索和归因指标会错过这类失败,以及为了解决这个问题,组织层面需要做出哪些改变。
在任何重视人工评分的 AI 系统中,评估员的吞吐量都限制了评估速度。本文介绍了一套运营规范——包括校准周期、感知队列的优先级排序以及评分标准反馈循环——旨在将标注产能视为一个 SRE 问题,而非招聘问题。
单轮评估分数可以保持在绿色状态,但用户可能在三次重新表述同一个问题后流失。这种失败发生在会话层面——这里告诉你如何检测和评分。
“重新生成”按钮看起来是一个唾手可得的 UX 优化,但它实际上改变了用户的行为,引导他们像对待老虎机一样对待你的模型。本文将探讨设计空间——包括分页、分支、引导式生成、重新生成预算——以及如何将“重新生成率”作为产品中最高带宽的质量信号进行监测。
在 RAG 系统中添加引用看起来只是改一行系统提示词。但在受监管的租户中,它会悄无声息地让推理成本增加 25%–40%。本文将探讨为什么这种“税收”是结构性的,以及哪些架构层面的调整可以帮你挽回大部分成本。
一种双阶段的 Agent 架构 —— 先进行发散性的初稿探索,再在受限上下文中进行精简执行 —— 在质量和成本上通常都优于 n-of-k 的自我批判循环。
私有的评估 Notebook 看起来效率很高,但会让组织缺乏统一的评估汇总。解决方案是建立合并门控契约:共享框架、验证过的切片、明确的负责人,以及任何人都能重新运行的排行榜。