推理模型经济学:思维链何时物有所值
一家中型 SaaS 公司的团队在阅读了一些基准测试后,在每个提示词中都加入了“让我们一步步思考”(let's think step by step)。他们的响应质量有了明显的提升——但他们的 LLM 账单也翻了三倍。当他们深入研究日志时,发现大部分额外的 Token 都花在了支持单分类和会议记录总结等任务上,而在这些任务中,额外的推理对输出质量并没有明显的改善。
扩展思考模型对于难题来说是真正的能力飞跃。但如果不加区别地应用,它们也是一个可靠的成本陷阱。一个经过良好调优的推理部署与一个昂贵的部署之间的区别通常归结为一点:理解哪些任务真正受益于思维链(chain-of-thought),而哪些任务只是在为显而易见步骤的冗长叙述买单。
