跳到主要内容

3 篇博文 含有标签「contracts」

查看所有标签

逐渐腐化的工具描述:当你的 Agent 仍在盲目调用时

· 阅读需 11 分钟
Tian Pan
Software Engineer

你的智能体已经悄悄出错六个月了,而你的错误率看起来却很正常。底层 API 发布了一个重命名的错误代码,将一个可选字段改为必填,并开始拒绝没有幂等性请求头(idempotency header)的调用。你智能体系统提示词(system prompt)中的工具描述 —— 那是去年第四季度从 Notion 页面粘贴过来的 —— 完全没有描述这些变化。智能体不断调用旧的参数结构,编排层不断捕获失败并使用同样错误的参数进行重试,而你遥测系统中的唯一信号只是略微升高的重试次数,且没有任何值班人员有足够的背景信息去调查它。

工具描述是接口契约。底层 API 发生变化的时刻,它们就开始老化。与强类型 SDK 不同,它们的失效是无声无息的 —— 模型只会发出更糟糕的调用。

AI 采购鸿沟:为什么你的供应商评估流程无法处理概率性系统

· 阅读需 12 分钟
Tian Pan
Software Engineer

我合作过的一个采购团队花了 11 周时间,对照一份 312 行的 RFP(征求建议书)电子表格给 4 家 LLM 供应商打分。他们谈妥了 99.9% 的正常运行时间 (uptime)、每 1K 输入 token 0.0008 美元的价格、SOC 2 Type II 认证,以及一份光鲜亮丽的基准测试 PDF——该文件显示他们选中的供应商在 MMLU 上领先 2.3 分。合同在周五签署。随后的周二,供应商悄然发布了一个模型更新,该团队构建的客服代理开始将大约 14% 的退款请求路由到错误的队列。正常运行时间 SLA 得到了遵守。基准测试得分没有变化。采购流程完全按照设计运行,而系统依然坏了。

这就是 AI 采购鸿沟。企业采购用于管理软件风险的工具——功能清单、正常运行时间保证、安全问卷、样本基准测试——都是为输出可重现的系统而构建的。这些工具都无法衡量真正决定 AI 供应商是否能持续为你工作的因素:由供应商控制而你无法控制的随机表面的行为稳定性。

保修难题:当你的 AI 功能出错时,谁来买单?

· 阅读需 10 分钟
Tian Pan
Software Engineer

每一份软件保修条款都假设了确定性行为。你交付一个函数,相同的输入返回相同的输出,而保修覆盖的是文档描述的行为与实际行为之间的差距。AI 功能彻底打破了这一假设。

当你的 LLM 驱动功能告诉客户错误的信息——而这个错误信息让他们蒙受了经济损失——传统的保修条款让所有人都在互相指责。

这不是假设场景。2020 年至 2025 年间,美国累计的生成式 AI 诉讼案件已超过 700 起,同比增长率高达 137%。管理软件责任的法律基础设施是为确定性世界构建的,而这种不匹配已经在造成真实损失。