2 篇博文含有标签「scaling」

潜在能力天花板：为什么更大的模型解决不了你的问题

2026年4月19日 · 阅读需 11 分钟

Software Engineer

在一个运行时间足够长的 AI 项目中，几乎都会出现一种模式。团队构建了一个原型，演示效果看起来不错，但在生产环境中，输出结果不够一致。有人建议切换到最新的前沿模型——用 GPT-4o 代替 GPT-3.5，用 Claude Opus 代替 Sonnet，用 Gemini Ultra 代替 Pro。有时这会有所帮助，但最终这种方法会不再奏效。团队发现，他们为每次推理支付了 5-10 倍的费用，延迟增加了一倍，而任务准确率仍然停留在 78%，而不是他们需要的 90%。

这就是潜在能力上限（latent capability ceiling）：即你所使用的语言模型的原始规模不再是限制因素的临界点。这是一个有经验数据支持的真实现象，大多数团队在遇到它时却浑然不觉——因为“使用更大的模型”这一反射动作成本低、速度快，并且在项目早期往往非常有效。

工具爆炸问题：为什么你的智能体在 30 个工具时就会崩溃

2026年4月13日 · 阅读需 10 分钟

Tian Pan

Software Engineer

每个智能体的演示都从三个工具开始。一个网页搜索，一个计算器，也许再加一个代码执行器。智能体每次都表现完美。于是你上线了，团队开始添加各种集成——Slack、Jira、GitHub、邮件、数据库查询、内部 API。六个月后，你的智能体拥有了 150 个工具，却有 40% 的概率选错。

这就是工具爆炸问题，也是生产环境智能体系统中最少被讨论的失败模式之一。退化并非线性的——而是断崖式的。一个在 5 个工具时准确率达 95% 的智能体，在你给它 100 个工具时可能会跌破 30%，即使模型和提示词完全没有改变。

关于 Tian Pan