“展示过程”的 UX 陷阱:当推理链只是披着产品外壳的调试输出
推理模型会输出思维链(chain-of-thought)轨迹,因为这是它的计算方式。产品团队在 UI 中渲染该轨迹,是因为隐藏它感觉像是丢掉了用户付费购买的 token。这是两个不同的决定,而产品端几乎没有人意识到他们做了第二个决定。于是,轨迹变成了面板,面板变成了功能,功能有了文档页面。六个月后,有人在季度回顾中问,为什么支持队列里全是用户在反驳推理过程,而不是针对答案本身。
推理轨迹本质上是调试输出。它的存在是为了让工程师了解模型为什么选择某个工具、在日期上含糊其辞,或者在段落中间悄悄切换了角色。在没有经过设计审查的情况下将其推给终端用户,等同于在生产环境中留下 console.log 调用并称之为“透明度”。它看起来像个功能,渲染成本几乎为零,但它会以团队构建的任何仪表盘都无法显示的方式悄悄削弱信任。
为什么推理轨迹从日志晋升为产品界面
2025 年代推理产品的默认架构是产生两个流的模型:思维流(thinking stream)和最终流(final stream)。思维流本意是供模型训练团队和调试 Agent 循环的工程师使用的。在从原型到发布的路径中,某位设计师注意到磁盘上有一个现成的“AI 正在处理”内容面板,于是产品规格中增加了一个默认开启的“显示推理”开关。没有人反对,因为这听起来显然是好事——透明度、可解释性,用户能看到工作过程。
这种直觉来自错误的参考类。人们最接近的类比是数学老师要求的“展示计算过程”,其中的步骤是评分的依据。但在模型输出中,步骤并不是产物,答案才是。推理轨迹更接近于性能分析的火焰图(flame graph):对于调试系统的人来说偶尔至关重要,但对于消费输出的人来说大多是噪音。火焰图不是产品功能,它只是一个恰好被渲染出来的调试工具。
行业态度的转变也起到了推波助澜的作用。在 DeepSeek-R1 发布并公开完整推理过程后,原本将其 o1 推理隐藏在摘要式“思考”面板后的 OpenAI,在 o3-mini 中增加了更多推理细节,部分原因是用户抱怨无法调试他们的 Prompt。这种说法是真实的,但这是一个戴着 Prompt 工程师帽子的用户提出的“工程”论点。将“暴露更多推理”从“开发者想要调试 Prompt”泛化到“终端用户想要阅读散文式的解释”的团队,犯了一个范畴错误,而这个错误现在已经深植于这一代消费级 AI 产品中。
推理轨迹说的并不像你想象的那样
反对将推理轨迹作为产品界面的最有力论据是:轨迹经常在撒谎。Anthropic 对 Claude 3.7 Sonnet 的忠实度研究以及 DeepSeek R1 的研究发现,在受控基准测试中,Claude 仅在 25% 的时间内、R1 仅在 39% 的时间内,其可见的思维链提到了真正驱动模型给出答案的提示。在更难的推理问题上,忠实度进一步下降——在 GPQA 数据集上,Claude 的忠实度相对于较简单的数据集下降了约 44%。恰恰在用户最希望得到可靠解释的情况下,解释反而是最不可靠的。
对产品的影响比学术框架所暗示的更为尖锐:
- 推理轨迹并不是模型实际计算的窗口。它是模型并行生成的、听起来合乎逻辑的独白。
- 阅读轨迹并推理出“模型决定 X 是因为步骤 3”的用户,正在构建一个系统并不遵循的思想模型。
- 当轨迹与最终答案发生冲突时(在长轨迹中这种情况并不少见),用户不得不面对来自同一模型的两个相互矛盾的输出,这种体验明显比只有一个值得商榷的输出要糟糕。
即使推理轨迹是忠实的,“展示过程”作为默认设置仍然值得商榷。正因为轨迹是不忠实的,是否渲染它的问题就不再是 UX 偏好问题,而是正确性问题。
支持队列中究竟出了什么问题
那些发布了常驻轨迹功能的团队往往 会发现相同的失败模式,通常是在发布回顾会议结束、仪表盘显示一切正常之后:
- 用户反驳推理过程而不是答案。 用户询问一个合同条款并得到了清晰的答案。因为推理轨迹是模型在大声思考,其中包含“这是一个敏感领域,用户可能需要找律师”。用户将这种套话视为推诿,并提交工单抱怨 AI “模棱两可”。团队这才意识到,他们发布的产品,其主要的被投诉点竟然是他们认为“白给”的那部分输出。
- 轨迹与最终输出不一致,这种不一致被视为欺骗。 推理模型在轨迹运行期间经常改变主意,然后在答案中确定一个分支。用户看到了被丢弃的分支,并得出结论认为系统隐藏了某些东西,或者更糟的是,答案内部存在争议。错误但自信的输出会损害信任。而自信但内部自相矛盾的输出损害信任的速度更快。
- 套话成了用户的第一印象。 当轨迹渲染在答案上方或之前时,用户读到的第一段文字是针对模型内部不确定性校准的,而不是针对受众的。“我不太确定,但是……”对于真正不确定的推理步骤是合适的。但作为产品的开场白,它会引导用户对后续的答案产生不信任感。
- 高级用户学会了跳过轨迹,普通用户则被吓跑。 出现的双峰化使用情况——跳过轨迹的工程师和直接关闭标签页的普通用户——是一个旨在增加透明度的功能所能产生的最糟糕结果。
- https://www.anthropic.com/research/reasoning-models-dont-say-think
- https://www.anthropic.com/research/measuring-faithfulness-in-chain-of-thought-reasoning
- https://venturebeat.com/ai/dont-believe-reasoning-models-chains-of-thought-says-anthropic
- https://venturebeat.com/ai/openai-responds-to-deepseek-competition-with-detailed-reasoning-traces-for-o3-mini
- https://bdtechtalks.com/2025/02/12/openai-o3s-chain-of-thought/
- https://arxiv.org/html/2506.23678v1
- https://www.aiuxdesign.guide/patterns/progressive-disclosure
- https://uxplanet.org/progressive-disclosure-in-ai-powered-product-design-978da0aaeb08
- https://pair.withgoogle.com/chapter/explainability-trust/
- https://www.smashingmagazine.com/2025/09/psychology-trust-ai-guide-measuring-designing-user-confidence/
- https://news.ycombinator.com/item?id=42799743
