跳到主要内容

当思考模型真正发挥作用时:生产环境推理算力的决策框架

· 阅读需 11 分钟
Tian Pan
Software Engineer

有一项研究,研究人员要求一个推理模型比较两个数字:0.9 和 0.11。一个模型花了 42 秒才给出答案。数学计算只花了几毫秒。模型在剩下的 41.9 秒里都在进行糟糕的思考。它重新审视自己的答案,怀疑自己,重新考虑,最后得出了它在前三个 token 中就已经得出的正确结论。

这就是过度思考的问题,它并非个案。当你将推理侧计算(inference-time compute)不加区分地应用于不需要它的任务时,就会发生这种情况。

"https://opengraph-image.blockeden.xyz/api/og-tianpan-co?title=%E5%BD%93%E6%80%9D%E8%80%83%E6%A8%A1%E5%9E%8B%E7%9C%9F%E6%AD%A3%E5%8F%91%E6%8C%A5%E4%BD%9C%E7%94%A8%E6%97%B6%EF%BC%9A%E7%94%9F%E4%BA%A7%E7%8E%AF%E5%A2%83%E6%8E%A8%E7%90%86%E7%AE%97%E5%8A%9B%E7%9A%84%E5%86%B3%E7%AD%96%E6%A1%86%E6%9E%B6"

推理模型(o1、o3、DeepSeek R1、具有扩展思考能力的 Claude)的出现,代表了解决难题能力上的真正飞跃。但它也引入了一类新的生产错误:在快速、廉价的生成完全足够的情况下,部署了昂贵且缓慢的深思熟虑。正确做出这一决策,对于构建真正有效的 AI 系统正变得越来越核心。

推理侧计算到底做了什么

标准的 LLM 策略是在训练时进行扩展:更多的参数、更多的数据、更多的计算。推理模型颠覆了这个等式。它们不是在部署前投入计算,而是在处理每个请求时投入计算——在产生最终答案之前,生成内部思维链(CoT)、探索多条解决路径、从死胡同中回溯。

在困难的基准测试中,其结果是惊人的。使用推理侧缩放的模型在国际数学奥林匹克竞赛(IMO)预选赛中获得了 74% 的分数,而其非推理型对应的模型仅为 9%。在特定的推理任务中,只要给予足够的推理预算,小巧的 1B 参数模型可以超越未经缩放的 405B 模型。

但这种性能并非免费的。Token 经济学是严苛的:

  • 在同类任务中,推理模型生成的 token 数量是直接回答模型的 3–10 倍
  • o3 级别的模型每个请求的成本大约是非推理型对应模型的六倍
  • 复杂问题的首个 token 响应时间(TTFT)可能超过五分钟
  • 随着规模的扩大,推理成本的增长快于请求量,因为推理任务触及了成本分布中昂贵的一端

这并不意味着你应该避免使用思考型模型。它的含义是,在没有路由策略的情况下部署它们,大约相当于用喷气发动机去过马路。

过度思考的陷阱

这种失败模式比简单的“推理需要更长时间”更为微妙。推理模型患有一种被称为“过度思考”的特定病症:它们在思维链的早期就找到了正确答案,然后却依然继续。

对长思维链模型的研究发现,在许多情况下,模型得出了正确的解决方案,然后引入了不确定性,接着重新探索替代方案,再重新验证最初的正确答案——整个过程都在消耗 token。在失败的案例中,模式则有所不同:模型固着在一个早期的错误路径上无法脱身,在错误的轨迹上耗尽了 token 预算。

这两种失败模式有着相同的根源:模型缺乏对何时已经思考足够的校准感知。人类可能会检查答案并感到自信,但推理模型没有内部的“充分性”信号。它们继续思考,是因为它们被训练去做的事情就是继续。

对生产系统的实际后果是,在分类任务上投入 16,000 个 token 的推理预算并不会产生更准确的分类。它会产生同样的答案——或者偶尔是一个更糟的答案——而成本却是原来的 15 倍。

路由决策框架

在部署任何 AI 功能之前,核心问题是任务的复杂性是否证明了推理计算的合理性。以下是一个实用的分类法:

受益于扩展思考的任务:

  • 多步骤数学推理(证明、优化问题、带约束的财务建模)
  • 涉及多个交互系统或非显而易见算法选择的复杂代码生成
  • 需要在多个章节之间追踪矛盾的长文档综合
  • 具有硬约束且朴素方法失效的规划问题
  • 训练数据中没有太多先例的新型问题表述

不从扩展思考中受益的任务:

  • 文本分类、情感分析、意图检测
  • 从结构化或半结构化文档中提取信息
  • 关键点明确的摘要
  • 答案在上下文中、仅需要格式化而非推导的检索增强生成(RAG)
  • 非推理模型在你的评估中已经达到可接受准确度的任何任务

扩展思考反而有害的任务:

  • 关注 p99 延迟的实时或交互式应用
  • 按 token 付费且利润空间有限的高吞吐量流水线
  • 简单的字符串转换、实体归一化或模式映射
  • “错误”答案源于过度思考的任务:推理模型有时会因为对确定的初始结论进行过度限定而引入错误

一个有用的启发式方法:如果一项任务能被人类专家在十秒钟的阅读内解决,推理模型就不太可能优于标准模型。只有在确实存在复杂性需要处理时,即答案并非显而易见、需要探索解决方案空间时,推理预算才会有所回报。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates