跳到主要内容

2 篇博文 含有标签「scaling」

查看所有标签

潜在能力天花板:为什么更大的模型解决不了你的问题

· 阅读需 11 分钟
Tian Pan
Software Engineer

在一个运行时间足够长的 AI 项目中,几乎都会出现一种模式。团队构建了一个原型,演示效果看起来不错,但在生产环境中,输出结果不够一致。有人建议切换到最新的前沿模型——用 GPT-4o 代替 GPT-3.5,用 Claude Opus 代替 Sonnet,用 Gemini Ultra 代替 Pro。有时这会有所帮助,但最终这种方法会不再奏效。团队发现,他们为每次推理支付了 5-10 倍的费用,延迟增加了一倍,而任务准确率仍然停留在 78%,而不是他们需要的 90%。

这就是潜在能力上限(latent capability ceiling):即你所使用的语言模型的原始规模不再是限制因素的临界点。这是一个有经验数据支持的真实现象,大多数团队在遇到它时却浑然不觉——因为“使用更大的模型”这一反射动作成本低、速度快,并且在项目早期往往非常有效。

工具爆炸问题:为什么你的智能体在 30 个工具时就会崩溃

· 阅读需 10 分钟
Tian Pan
Software Engineer

每个智能体的演示都从三个工具开始。一个网页搜索,一个计算器,也许再加一个代码执行器。智能体每次都表现完美。于是你上线了,团队开始添加各种集成——Slack、Jira、GitHub、邮件、数据库查询、内部 API。六个月后,你的智能体拥有了 150 个工具,却有 40% 的概率选错。

这就是工具爆炸问题,也是生产环境智能体系统中最少被讨论的失败模式之一。退化并非线性的——而是断崖式的。一个在 5 个工具时准确率达 95% 的智能体,在你给它 100 个工具时可能会跌破 30%,即使模型和提示词完全没有改变。