Chain-of-Thought 的 Token 经济学:当“大声思考”的成本入不敷出时
· 阅读需 9 分钟
思维链(Chain-of-thought)提示词工程是应用大语言模型(LLM)工程中最重大的发现之一。让模型“一步步思考”,它在数学、逻辑和多跳推理任务上的准确率就会大幅提升。这项技术已变得如此标准,以至于许多团队在系统中几乎是本能地将其应用于每一个提示词——分类、提取、摘要、路由——而从未考虑过它是否真的有帮助。
事实通常并非如此。沃顿商学院生成式 AI 实验室(Wharton's Generative AI Lab)的最新研究显示,在三分之一的模型任务组合中,思维链(CoT)并没有带来统计学上的显著提升,而在其他一些组合中,它甚至会损害性能。与此同时,每一次 CoT 请求都会让你的 Token 账单膨胀 2 到 5 倍,并增加数秒的延迟。对于处理数百万次请求的生产系统而言,这已经不是一种提示策略,而是一个未经审计的成本中心。
