跳到主要内容

CFO 在电子表格上看不见的评测预算

· 阅读需 10 分钟
Tian Pan
Software Engineer

打开任何季度计划电子表格,你都能找到团队交付的每一个功能、每一张外包发票、每一项云服务支出。你找不到的是那些从未发生的停机事故、在触达客户前被拦截的幻觉退款,或者是凌晨 2 点被评测(eval)拦截的 Prompt 回归。这些“非事件”没有 SKU。它们不产生工单、没有复盘报告,也没有 Slack 讨论串。因此,当评测预算面临续约时,它在与拥有 Demo 的功能争夺人力配额——而且几乎每次都会输。

这不是勇气的问题。这是一个衡量标准的问题。评测投资同时兼具安全网和测试套件的属性:它悄无声息地产生复利,在规避灾难中体现价值,而其全部价值都建立在“反事实(counterfactual)”之上。财务部门在结构上对反事实视而不见。如果你领导一支 AI 团队,你的工作不是去争论评测是否重要——这一点每个人都会点头同意。你的任务是让那些只相信电子表格的人,能够看懂这种具有复利效应且无形的投资回报。

为什么评测的价值在结构上是不可见的

安全团队在过去二十年里一直深受此问题困扰,并给它起了一个名字:预防悖论(prevention paradox)。一个安全项目表现得越好,其价值就越不明显。在预算委员会看来,一个从未发生安全漏洞的首席信息安全官(CISO)所领导的部门简直“无所作为”。投入 200 万美元用于端点检测,从而防止了一场价值 1500 万美元的勒索软件攻击,在账面上体现为 200 万美元的成本和 0 美元的收益——因为那场 1500 万美元的攻击是假设性的。实践者称之为“无形保护悖论”,它产生了一个恶性循环:你投资,投资奏效,灾难的缺席让投资显得不必要,支持力削弱,组织悄然变得更加脆弱。

评测是 AI 产品的预防层,它们完全继承了这一悖论。每一个在部署前捕获回归错误的评测,都将潜在事故转化为了“非事件”。非事件就是胜利。根据定义,非事件在事后也是无法衡量的——你无法向别人展示那个没有接收到错误医疗建议的客户,因为根本没有这个客户,没有记录,空无一物。

与功能开发的这种不对称性是残酷的。一个功能会带来 Demo、发布文章和持续上升的使用增长曲线。而当团队尽职尽责时,评测套件产生的数字只会保持平稳。“平稳”在董事会的汇报材料里可不好看。因此,无论评测预算实际上创造了多少价值,它在进入每一次优先级讨论会议时,在叙事上就已经输了。

评测不是 QA 开销——它们是加速工具

领导者可能犯下的最昂贵的认知错误,就是将评测归类为“质量保证(QA)”。在大多数组织的思维模型中,QA 是交付的一种“税收”——是你通往生产环境途中必须经过的、减慢速度的关卡。如果评测是税收,那么削减它们就能换取速度,而任何提高速度的压力都会转化为削减评测的压力。

这种模型完全反了。一个好的评测套件才是让你能够快速交付的关键,因为它是“快速行动”与“快速行动并破坏客户信任”之间的防线。如果没有评测,对 Prompt、模型版本、检索索引或工具定义的每一次修改,都是一场盲目的赌博。没有这张安全网的团队实际上并不会交付得更快——他们交付,然后被教训,接着因为恐惧而慢得像蜗牛爬,不得不手动测试每一个更改,因为他们没有自动化手段来获知破坏了什么。

斯坦福 HAI 的《2025 年 AI 指数报告》指出,拥有结构化评估工作流的组织所经历的生产事故显著减少。大约三分之一的组织将“质量”列为 AI 部署的首要障碍——它是阻止原型变为产品的绊脚石。评测并不是在生产之路上拖慢你脚步的东西;相反,评测的缺失才是让你困在“原型坟场”的原因。相应地重塑这一预算项。它不是“QA 开销”,而是“部署速度保险”,而速度是你的 CFO 已经知道如何衡量价值的东西。

将评测覆盖率与速度及事故联系起来的指标

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates