AI 功能工作产出的证据——eval 覆盖率、评判校准、kill 决策——在标准绩效评分标准中没有位置。本文给出需要补上的内容。
同厂商的 LLM 评审会让某个 prompt 变体看起来更好,而生产环境却在回退。本文解释为什么家族偏差能骗过所有看板指标, 以及如何用跨厂商集成评审加上人类校准集来修正它。
一次评估全绿、延迟匹配的看似干净的模型迁移,可能会悄悄让供应商的前缀缓存失效,使输入 token 成本飙升数周。本文拆解这个盲区,以及避免它的上线纪律。
你的法务团队批准的单轮披露评审,无法在为它服务的 Agent 循环中存活——到第十四轮,模型已经在用一份悄悄删掉了「我是 AI」的摘要回答用户,而这个缺口如今是一个有牙齿的监管责任。
推理已经占到企业 AI 支出的 85%,但组织架构里仍然把它当成工程线下的一项杂项。真正的解法是:一个有名有姓的预算负责人、一条分摊规则,以及一个事先约定好的关停阈值——这三样工具都帮不了你,得你自己谈出来。
当语音、视觉和 LLM 各自打开自己的根 span 时,多模态 Agent 就让 span 树支离破碎。修复办法是:一个轮次 ID、附着的工件,以及一个对接合层负责的所有者。
你的 token bucket 衡量的是用户点击;账单衡量的是模型调用。当一次点击扇出成三十次调用,HTTP 边界上的限流器就变成了一把纸糊的伞。
团队对外宣称的 AI 能力,是成员中最强那一位的水平;而真实的交付速度,是这群人的中位数水平。这道鸿沟是你路线图上定价最不充分的风险。
六个月前你的提示词前缀是 4k tokens,几乎可以摊销到免费。今天它是 11k tokens,你的缓存命中率是 31%,没有人能指出是哪个 PR 干的。
把一个有合并权限的 AI Agent 接入 CI,就在你的体系里创造了一种 SRE 手册从未命名过的新型操作主体。给它的动作分级、把不能无人值守的动作排进队列、为每次变更留下可追溯的归属,并定期演练它的紧急停机开关。
一个无人认领的工具可能永远赖在你的共享 agent 目录里,在 token、选择准确率和安全攻击面上对每一次推理课税。建一套能让你把它干净拔掉的弃用生命周期。
你的 AI 功能与用户之间有一份未公开的契约,它完全编码在系统 prompt 里。一小部分有耐心的用户会逆向破解它,其余的人则只能用到一个更糟糕的产品。与其藏着,不如把契约显式呈现出来。