4 篇博文含有标签「procurement」

模型指标卡的基准测试：当你的合同引用该数字时，其方法论已发生偏移

2026年6月3日 · 阅读需 12 分钟

Software Engineer

你的采购团队在上个季度续约了推理合同，并带着一丝自得地注意到，引用“HumanEval pass@1 达到 84%”的质量条款已被供应商最新的模型卡（model card）轻松超越，现在报告的数值是 87%。提高了三个百分点。条款已达成。合作关系很稳健。与此同时，你推理团队自己的回归测试集——那个真正运行你产品所依赖的任务的测试集——显示自模型更新发布以来，在留出法评估案例上出现了 2% 的下降。这两个数字都是真实的，但合同里只写了其中一个。

这就是当营销产物在法律文件中承重时的情况。模型卡上的基准测试数字只是测量结果的标题；而产生该数字的方法论则是附录中的一个注脚，合同审查链上的任何人都不会去读它。当供应商更改方法论时——从贪婪解码（greedy decode）切换到三选一采样（best-of-three sampling），添加结构化输出系统消息，或者更换提示词模板以匹配模型新的聊天微调——数字的变动与你的实际流量毫无关系，而与数字的计算方式息息相关。你的合同条款引用了该数字，而对方则掌控着产生该数字的协议。你签署了一个对方可以在不违约的情况下修改其含义的条款。

绑定到你不再符合条件的定价层级的成本预测

2026年6月2日 · 阅读需 11 分钟

Tian Pan

Software Engineer

使用曲线几乎没变。账单却上涨了 38%。

这是某中型金融科技公司的财务主管在季度第一个周一收到的邮件。三个月前，工程部门重新谈判了他们的 LLM 推理合同，通过承诺最低使用量，从谈判后的单价中又削减了相当大的一部分。财务模型将新的单价纳入了财年预测。没有人留意到定价表中的脚注：如果月度使用量连续三个月低于底线，折扣将失效。4 月至 5 月的季节性流量下降正好触发了这一条款。供应商将账户重新分档回原价。工程部门没有收到任何通知，因为通知发到了采购部门的收件箱，而自合同签署以来，那里就没人读过邮件。

那个定价模型假设提示词由人类编写的数据标注商

2026年6月2日 · 阅读需 12 分钟

Tian Pan

Software Engineer

你的每美元标签（labels-per-dollar）仪表盘是团队评审中最亮眼的一行，但它在对你撒谎。分母是你 2023 年与标注供应商谈妥的按任务计费率，那时人类研究负责人会亲手编写每个标注提示词（prompt），修改两次，请同事审阅，一周可能才提交 40 个提示词。分子是通过 API 返回的已完成任务数量。在过去的三个月里，你的团队悄悄停止了手动编写提示词，转而使用大语言模型（LLM）生成。LLM 每两秒就能生成一个提示词，边际成本几乎为零。你的每美元标签指标在上升，而唯一知道这个指标毫无意义的人是供应商的客户经理，他正看着利润率被压缩，并准备发送一份采购团队会将其视为涨价的合同修正案。

这种错位并不是供应商的问题。这反映出合同中关于工作流的假设已不再成立。这些假设与你当前行为之间的差距，正是一方在静默吸收的剩余价值，直到续约周期迫使双方进行价格发现（price-discovery）对话。先注意到错位的一方将决定新的价格。

80 问之墙：企业级 AI 安全调查问卷的真实需求

2026年4月27日 · 阅读需 12 分钟

Tian Pan

Software Engineer

你的团队在 3 月发布的 AI 功能对你一半的潜在客户来说是无法销售的，而工程部门目前对此还一无所知。在客户执行（AE）的 Slack 频道里，一个成交概率原本为 80% 的项目刚刚被踢出了预测名单，因为潜在客户的 CISO 发来了一份包含 92 个问题的安全评估以及一份 AI 补充协议。第 31 题要求提供你的训练数据来源证明文档。第 47 题询问是否记录了提示词（prompts）、记录在何处、保存多长时间以及谁有权阅读。第 63 题询问你的推理过程是否可以固定在欧盟（EU）区域。第 78 题要求提供针对 OWASP LLM Top 10 语料库的提示词注入防御率，并按模型版本列出实测数字。销售团队只有 72 小时来做出回复。而 AI 团队中没有一个人写下过这些问题的答案。

这就是新的围墙。财富 500 强的采购团队现在会进行 2023 年尚不存在的 AI 功能专项安全审查，而你的工程部门需要的答案其实并不难产生 —— 只是目前没人负责这件事。这些问题是具体的，框架是公开的，但大多数 AI 产品却在悄无声息中变得无法销售给受监管的企业，因为答案从未被记录下来。

令人沮丧的是，这一切并不神秘。问卷是有模板的。预期的答案也是有据可查的。真正的失败模式在于：AI 功能在发布时被假设现有的 SOC 2 报告能像过去十年那样在企业交易中发挥同样的效力 —— 事实并非如此。

关于 Tian Pan