参数幻觉是漂移信号,而非模型 Bug
· 阅读需 11 分钟
工单上写着 “模型幻觉了一个用户 ID”。分拣标签是 model-quality。修复方案是在系统提示词中多加一句话。六周后,另一个工具开始幻觉日期格式,循环再次开启。一年后,提示词已经演变成一段针对整个后端的 4,000 token 的道歉信,而团队也坚信该模型在工具参数方面就是不可靠的。
模型并非不可靠。模型是一个合约一致性机器,它在阅读你提供给它的合约 —— 而你提供的合约一直在悄悄偏离线路另一端的合约。大多数生产环境中的 “参数幻觉” 并不是模型故障。它们是你的工具描述在默默失败的集成测试,之所以表现为模型输出,是因为这是技术栈中唯一能看到分歧的地方。
这种视角的转变至关重要,因为每一个下游决策都会随之改变。如果模型很差,你会修补提示词并调整温度。如果描述已过时,你会测量描述与 API 之间的差距,在 CI 中限制描述修改,并将每个 “幻觉” 参数视为合约漂移的前导指标。其中一个方案具备扩展性,而另一个则会累积每个季度都变得更难清除的技术债。
