潜在能力天花板:为什么更大的模型解决不了你的问题
· 阅读需 11 分钟
在一个运行时间足够长的 AI 项目中,几乎都会出现一种模式。团队构建了一个原型,演示效果看起来不错,但在生产环境中,输出结果不够一致。有人建议切换到最新的前沿模型——用 GPT-4o 代替 GPT-3.5,用 Claude Opus 代替 Sonnet,用 Gemini Ultra 代替 Pro。有时这会有所帮助,但最终这种方法会不再奏效。团队发现,他们为每次推理支付了 5-10 倍的费用,延迟增加了一倍,而任务准确率仍然停留在 78%,而不是他们需要的 90%。
这就是潜在能力上限(latent capability ceiling):即你所使用的语言模型的原始规模不再是限制因素的临界点。这是一个有经验数据支持的真实现象,大多数团队在遇到它时却浑然不觉——因为“使用更大的模型”这一反射动作成本低、速度快,并且在项目早期往往非常有效。
