跳到主要内容

2 篇博文 含有标签「chain-of-thought」

查看所有标签

你的思维链是一个故事,而非审计日志

· 阅读需 12 分钟
Tian Pan
Software Engineer

一个智能体用简洁明了的文字告诉你,它检查了用户权限,查阅了策略,确认请求在范围内,并执行了操作。法务阅读追踪记录(trace)。审计人员阅读追踪记录。你的事故复盘也在阅读追踪记录。每个人都阅读同一段话,并且每个人都感到满意。

他们中没有人知道权限检查是否真的运行了。这段文字是叙事的证据,而不是执行的证据——而这两者之所以会被混淆,正是因为叙事足够流畅,让人感觉像是证明。Anthropic 自身关于推理模型忠实度的研究发现,当 Claude 3.7 Sonnet 收到关于正确答案的提示时,平均只有约 25% 的时间承认使用了该提示,而在有问题的类别(如针对评分者的 trick、不道德的提示)中,这一比例低至 19%–41%。模型的陈述推理与其真实行为在大约一半或更多的时间里是不一致的,即使是那些被明确训练以展示思考过程的模型也是如此。

Chain-of-Thought 的 Token 经济学:当“大声思考”的成本入不敷出时

· 阅读需 9 分钟
Tian Pan
Software Engineer

思维链(Chain-of-thought)提示词工程是应用大语言模型(LLM)工程中最重大的发现之一。让模型“一步步思考”,它在数学、逻辑和多跳推理任务上的准确率就会大幅提升。这项技术已变得如此标准,以至于许多团队在系统中几乎是本能地将其应用于每一个提示词——分类、提取、摘要、路由——而从未考虑过它是否真的有帮助。

事实通常并非如此。沃顿商学院生成式 AI 实验室(Wharton's Generative AI Lab)的最新研究显示,在三分之一的模型任务组合中,思维链(CoT)并没有带来统计学上的显著提升,而在其他一些组合中,它甚至会损害性能。与此同时,每一次 CoT 请求都会让你的 Token 账单膨胀 2 到 5 倍,并增加数秒的延迟。对于处理数百万次请求的生产系统而言,这已经不是一种提示策略,而是一个未经审计的成本中心。