使用 LLM 裁判为模型输出评分,而裁判本身也是一个具有特定行为的模型。当它发生变化的那天,所有的历史分数都会变成“外币”——而大多数团队从未察觉到这一点。
在一个由一个模型评审另一个模型并反馈给下一次评估的闭环中,根本不存在地面真值(ground truth)——错误被“洗白”成了高分。这里介绍了该在何处重新引入人工。
模型弃用通知看起来只是一个单行配置更改,但你花费六个月调优的提示词是针对特定模型的特性而设计的,无法在切换后继续使用。应将模型生命周期终点视为一个带有可重复运行评估集的周期性迁移项目。
初级工程师每周都在积累上下文;而智能体则一无所获。为什么“新员工”这一比喻会分散你的注意力,以及你应该将学习重心放在何处。
智能体产品将危险操作锁定在审批对话框之后并称之为监管,但到了第 40 次提示时,人类会出于条件反射点击批准。为什么提示量才是真正的安全 Bug,以及如何修复它。
Prompt 缓存键是一个正确性边界,而非一个计费开关。如果你只为了提高命中率而设计它,就会引发跨租户上下文泄露和过时的个性化。
将 Prompt Injection 视为内容过滤问题是一场注定失败的军备竞赛。真正的漏洞在于“混淆代理”:即智能体利用借来的权限执行来自不可信渠道的指令。解决方案应当是限制其能力范围。
一次 10 轮的对话成本大约是单轮对话的 55 倍,而非 10 倍,因为每一轮都会对整个历史记录重新计费。本文将分析 N 平方背后的数学原理、为什么缓存无法彻底解决问题以及如何对其进行限制。
供应商配额不再仅仅局限于后端。当智能体在任务执行过程中达到每分钟 Token 数上限时,失败会直接反馈给用户 —— 因此,速率限制现在成了产品设计必须考虑的一部分。
语义缓存用精确匹配的保证换取了低延迟,而代价则是将误命中作为流畅的事实返回。本文将探讨如何衡量误命中率、选择 Embedding 模型、缓存检索而非生成,并将阈值调优作为一项安全决策。
你的员工中有一半已经在运行未经批准的 AI 工具,而严厉打击只会让他们转入地下。为什么影子 AI 是官方路径缓慢的症状——以及一条更快的“铺就之路”如何解决这一问题。
流式输出在任何护栏检查之前就已触达用户。本文将探讨为什么输出审核与 Token 流式传输在结构上存在冲突,以及如何通过缩短暴露窗口来应对这一问题,而非对其视而不见。