跳到主要内容

3 篇博文 含有标签「vendor-risk」

查看所有标签

那个在你待办事项中悄悄更改的弃用日期

· 阅读需 10 分钟
Tian Pan
Software Engineer

弃用通知在某个周二送达,停用日期定在六个月后。你的平台团队将其记录在依赖跟踪器中,贴上 “Q3 切换” 标签,并标记为黄色严重度。它与队列中已有的另外两个迁移任务汇合。三周后,供应商在同一个 URL 下修改了日期,没有 diff,没有收件箱通知,只有一段悄悄更新的文字,将停用日期提前了 60 天,直接挪到了你的代码冻结期中间。

你视为规划文档的生命周期页面,其实一直是一个合同闹钟。唯一改变的是它控制着哪个团队的日历——而拥有这个日历的团队并不是你的。

那场无需部署就让你检索召回率减半的 Embedding 弃用事件

· 阅读需 12 分钟
Tian Pan
Software Engineer

在一个 RAG 系统中,可能上线的代价最高昂的嵌入 (embedding) Bug,是那种你的代码库没有任何变化、检索代码没变、索引没变、查询路径也没变的 Bug。然后在第六周的某个周二,有人注意到答案的质量不如从前了。

服务商为你十二个月前构建索引时所使用的嵌入系列发布了停用公告。平台团队将其归档在了一个拥有一年缓冲期的停用仪表盘中,然后就继续处理其他事情了。停用路径并不是一个生硬的截止——而是一个悄无声息的质量退化:被停用的端点开始路由到一个“兼容性”继任者,它返回相同维度的向量,但语义几何空间却有微妙的不同。查询嵌入开始与你一年前嵌入的语料库发生漂移。在六周的时间里,你的常规评估中的 Recall@10 下降了 47%。团队直到一个无关的质量仪表盘达到阈值时才追溯到原因,迫使一名高级工程师进行根因分析,最终发现问题指向了一个在这一年里没人动过的嵌入端点。

第四方风险:当供应商的供应商掌控了你客户的故障

· 阅读需 13 分钟
Tian Pan
Software Engineer

你与模型提供商签订了合同。你的运行手册(runbook)处理了该提供商降级的情况。当他们的仪表板变黄时,你的状态页订阅会向你发送告警。你觉得万无一失。然后,在某个周三下午,你提供商运行的基础云区域开始出现局部降级,你提供商的故障转移区域也受到了影响,因为他们为了控制单位经济效益而整合了容量。由于签署合同时上游两层的供应商决策,你的产品在 90 分钟内处于半瘫痪状态。

第二天早上,客户的事后分析(postmortem)请求出现在你的收件箱里。他们想要找到根本原因。根本原因存在于你的状态页无法看到的层级,也是你的合同无法约束的层级。这一层级正是所谓的第四方风险——它不是一个采购复选框,而是一个无形的依赖层,它会向上层传导故障,只会衰减而不会被吸收。