CFO 在电子表格上看不见的评测预算

2026年5月18日 · 阅读需 10 分钟

Software Engineer

打开任何季度计划电子表格，你都能找到团队交付的每一个功能、每一张外包发票、每一项云服务支出。你找不到的是那些从未发生的停机事故、在触达客户前被拦截的幻觉退款，或者是凌晨 2 点被评测（eval）拦截的 Prompt 回归。这些“非事件”没有 SKU。它们不产生工单、没有复盘报告，也没有 Slack 讨论串。因此，当评测预算面临续约时，它在与拥有 Demo 的功能争夺人力配额——而且几乎每次都会输。

这不是勇气的问题。这是一个衡量标准的问题。评测投资同时兼具安全网和测试套件的属性：它悄无声息地产生复利，在规避灾难中体现价值，而其全部价值都建立在“反事实（counterfactual）”之上。财务部门在结构上对反事实视而不见。如果你领导一支 AI 团队，你的工作不是去争论评测是否重要——这一点每个人都会点头同意。你的任务是让那些只相信电子表格的人，能够看懂这种具有复利效应且无形的投资回报。

为什么评测的价值在结构上是不可见的

安全团队在过去二十年里一直深受此问题困扰，并给它起了一个名字：预防悖论（prevention paradox）。一个安全项目表现得越好，其价值就越不明显。在预算委员会看来，一个从未发生安全漏洞的首席信息安全官（CISO）所领导的部门简直“无所作为”。投入 200 万美元用于端点检测，从而防止了一场价值 1500 万美元的勒索软件攻击，在账面上体现为 200 万美元的成本和 0 美元的收益——因为那场 1500 万美元的攻击是假设性的。实践者称之为“无形保护悖论”，它产生了一个恶性循环：你投资，投资奏效，灾难的缺席让投资显得不必要，支持力削弱，组织悄然变得更加脆弱。

评测是 AI 产品的预防层，它们完全继承了这一悖论。每一个在部署前捕获回归错误的评测，都将潜在事故转化为了“非事件”。非事件就是胜利。根据定义，非事件在事后也是无法衡量的——你无法向别人展示那个没有接收到错误医疗建议的客户，因为根本没有这个客户，没有记录，空无一物。

与功能开发的这种不对称性是残酷的。一个功能会带来 Demo、发布文章和持续上升的使用增长曲线。而当团队尽职尽责时，评测套件产生的数字只会保持平稳。“平稳”在董事会的汇报材料里可不好看。因此，无论评测预算实际上创造了多少价值，它在进入每一次优先级讨论会议时，在叙事上就已经输了。

评测不是 QA 开销——它们是加速工具

领导者可能犯下的最昂贵的认知错误，就是将评测归类为“质量保证（QA）”。在大多数组织的思维模型中，QA 是交付的一种“税收”——是你通往生产环境途中必须经过的、减慢速度的关卡。如果评测是税收，那么削减它们就能换取速度，而任何提高速度的压力都会转化为削减评测的压力。

这种模型完全反了。一个好的评测套件才是让你能够快速交付的关键，因为它是“快速行动”与“快速行动并破坏客户信任”之间的防线。如果没有评测，对 Prompt、模型版本、检索索引或工具定义的每一次修改，都是一场盲目的赌博。没有这张安全网的团队实际上并不会交付得更快——他们交付，然后被教训，接着因为恐惧而慢得像蜗牛爬，不得不手动测试每一个更改，因为他们没有自动化手段来获知破坏了什么。

斯坦福 HAI 的《2025 年 AI 指数报告》指出，拥有结构化评估工作流的组织所经历的生产事故显著减少。大约三分之一的组织将“质量”列为 AI 部署的首要障碍——它是阻止原型变为产品的绊脚石。评测并不是在生产之路上拖慢你脚步的东西；相反，评测的缺失才是让你困在“原型坟场”的原因。相应地重塑这一预算项。它不是“QA 开销”，而是“部署速度保险”，而速度是你的 CFO 已经知道如何衡量价值的东西。

将评测覆盖率与速度及事故联系起来的指标

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

CFO 在电子表格上看不见的评测预算

为什么评测的价值在结构上是不可见的

评测不是 QA 开销——它们是加速工具

将评测覆盖率与速度及事故联系起来的指标

Recommended Reading

关于 Tian Pan

为什么评测的价值在结构上是不可见的​

评测不是 QA 开销——它们是加速工具​

将评测覆盖率与速度及事故联系起来的指标​

Recommended Reading

关于 Tian Pan

为什么评测的价值在结构上是不可见的

评测不是 QA 开销——它们是加速工具

将评测覆盖率与速度及事故联系起来的指标