跳到主要内容

2 篇博文 含有标签「contracts」

查看所有标签

AI 采购鸿沟:为什么你的供应商评估流程无法处理概率性系统

· 阅读需 12 分钟
Tian Pan
Software Engineer

我合作过的一个采购团队花了 11 周时间,对照一份 312 行的 RFP(征求建议书)电子表格给 4 家 LLM 供应商打分。他们谈妥了 99.9% 的正常运行时间 (uptime)、每 1K 输入 token 0.0008 美元的价格、SOC 2 Type II 认证,以及一份光鲜亮丽的基准测试 PDF——该文件显示他们选中的供应商在 MMLU 上领先 2.3 分。合同在周五签署。随后的周二,供应商悄然发布了一个模型更新,该团队构建的客服代理开始将大约 14% 的退款请求路由到错误的队列。正常运行时间 SLA 得到了遵守。基准测试得分没有变化。采购流程完全按照设计运行,而系统依然坏了。

这就是 AI 采购鸿沟。企业采购用于管理软件风险的工具——功能清单、正常运行时间保证、安全问卷、样本基准测试——都是为输出可重现的系统而构建的。这些工具都无法衡量真正决定 AI 供应商是否能持续为你工作的因素:由供应商控制而你无法控制的随机表面的行为稳定性。

保修难题:当你的 AI 功能出错时,谁来买单?

· 阅读需 10 分钟
Tian Pan
Software Engineer

每一份软件保修条款都假设了确定性行为。你交付一个函数,相同的输入返回相同的输出,而保修覆盖的是文档描述的行为与实际行为之间的差距。AI 功能彻底打破了这一假设。

当你的 LLM 驱动功能告诉客户错误的信息——而这个错误信息让他们蒙受了经济损失——传统的保修条款让所有人都在互相指责。

这不是假设场景。2020 年至 2025 年间,美国累计的生成式 AI 诉讼案件已超过 700 起,同比增长率高达 137%。管理软件责任的法律基础设施是为确定性世界构建的,而这种不匹配已经在造成真实损失。