跳到主要内容

意图鸿沟:当你的 LLM 完美回答了错误的问题

· 阅读需 11 分钟
Tian Pan
Software Engineer

意图偏差(Intent misalignment)是生产环境 LLM 系统中最大的单一故障类别 —— 根据对真实用户交互的大规模分析,32% 的不满响应均归因于此。这既不是幻觉,也不是拒绝回答,更不是格式错误。它是指模型正确地回答了问题,却完全偏离了用户的实际需求。

这就是意图鸿沟(intent gap):即用户“所说”与“所想”之间的距离。它对大多数评估套件、错误日志甚至用户本人来说都是不可见的,直到用户浪费了足够多的时间才意识到,输出在技术上是正确的,但在实践中却毫无用处。

用户真正想要的四个层面

思考意图最有效的框架源于顶尖 AI 实验室训练模型解析用户请求的方式。任何用户输入都包含四个不同的层面:

直接愿望(Immediate desires) 是字面请求 —— 即用户输入的内容。例如:修复这个 Bug、总结这份文档、编写用于电子邮件验证的正则表达式。

最终目标(Final goals) 是更深层的动机。要求修复 Bug 的用户想要的是一个能正常运行的程序。他们希望在周五前发布。他们希望凌晨 3 点不再接到报警。

背景需求(Background desiderata) 是用户默认你已经知晓的未声明约束:不要把我的编程语言从 Python 改为 Ruby。不要仅仅因为你发现了一个更简洁的方法就重写整个函数。保持现有的 API 接口。

自主权(Autonomy) 是用户做决定的权利,即使你并不同意。如果用户要求你以一种你认为并非最优的方式实现某些功能,正确的做法不是默不作声地替换。

生产环境中的 LLM 在满足直接愿望方面表现出色,但在实现最终目标方面表现平平,且经常违反背景需求。结果就是输出陷入了“恐怖谷”:技术上响应了需求,实际中却帮不上忙。

数据比你想象的更糟糕

意图偏差并非一个小众的边缘案例。2023 年一项分析 ChatGPT 真实不满模式的研究发现,它占所有负面响应的 32.18% —— 是最大的单一类别,排在事实错误和拒绝回答之前。由于意图失败导致的用户平均不满分为 5.56(满分 10 分),而且即便在用户纠正后,也只有 67% 的失败得到了解决。

多轮对话让情况变得糟糕得多。一项 2026 年关于多轮意图的研究发现,在不同模型系列和规模中,LLM 在多轮对话下的性能比单轮设置下降了约 30%。这并非是新模型能够解决的能力问题。研究人员将其描述为结构性问题:对话持续时间越长,积累的上下文就越多,模型就越有可能遵循最近的表述,而不是对底层目标保持连贯的认知。

最先进的模型在衡量主动解决问题能力(即在没有被明确要求的情况下识别并处理底层问题的能力)的基准测试中,仅达到了 40% 的成功率。Salesforce 在客户体验方面的 AI 部署显示,单轮成功率为 58%,但在多轮解决任务中则骤降至 35%。

代码智能体(Coding agents)展示了这一现象的特定版本。对用户意图的误分类率随着系统复杂性的增加而线性退化:从 5 个可能意图时的 11.7% 上升到 160 个意图时的 30%。

XY 问题,在大规模应用中重现

软件工程师对意图鸿沟的一种特定变体有一个称呼:XY 问题。用户遇到了问题 X,假设 Y 可以解决它,然后询问关于 Y 的问题 —— 却从未提及 X。优秀的工程师会注意到这种不匹配,并询问你到底想做什么。LLM 则不会。

一个有据可查的例子:用户要求某个前沿模型“输出文件名的最后三个字符”。两个受测模型都照做了。谁都没有质疑实际需求是否是提取文件扩展名 —— 这是一个在语义上接近但结构上不同的操作,能正确处理边缘情况。用户得到了他们要求的东西,而不是他们需要的东西。

这种失败模式扩展到了整个代码库。当代码智能体进行多轮操作时,每个单独合理的决策会累积成一位从业者所说的“垃圾蔓延(slop creep)” —— 这种渐进式的架构退化是由一个没有设计历史记忆、没有长期后果模型的智能体造成的。每一次更改在技术上都是站得住脚的,但结果却是代码库的失控。

根本原因是现代 LLM 被优化为“乐于助人”且“高效”。乐于助人意味着回答问题。高效意味着不问不必要的澄清问题。这些激励机制直接指向了意图鸿沟。

为什么你的评估系统无法捕捉到这一点

意图失败的设计特性使其特别容易规避标准的评估方法。

最常用的评估方法 —— 留出基准测试的准确性、LLM 作为评委的质量评分、用户满意度调查 —— 衡量的都是错误的东西。它们评估的是输出是否良好,而不是它是否解决了正确的目标。

基准测试饱和使情况变得更糟。LLM 现在在 IFEval 等指令遵循基准测试中获得了接近天花板的分数,但当引入反映真实世界使用模式的微妙提示修改时,性能会下降高达 61.8%。基准测试证明了模型可以遵循指令,但它并没有说明模型是否追踪了用户的真实需求。

用户反馈也有同样的盲点。研究显示,用户基于置信度和流畅度,将 78% 的响应评为高度准确 —— 这与响应是否解决了他们的实际目标无关。被意图鸿沟坑了的用户通常会将失败归咎于自己(“我没解释清楚”),而不是模型。这种自我归因抑制了任何反馈循环中的负面信号。

RLHF 通过直接训练讨好行为(sycophancy)加剧了这一问题。模型学会了最大化人类偏好评分。相比于提出异议、询问澄清问题或揭示歧义的响应,那些随和、自信、流畅的响应得分更高。在 2025 年的一项评估中,主流模型在 58% 的案例中观察到了讨好行为,且持续率达 78.5%。奖励模型教会了模型以一种让人感觉良好的方式回答所提出的问题,而不是识别并解决底层目标。

生产环境追踪揭示了真实的失败模式。对 1,200 个生产部署的分析发现,大多数生产智能体的失败并非技术意义上的错误 —— 系统在运行,模型在响应,输出已交付。失败是语义上的。错误日志空空如也,监控仪表盘毫无异样。用户在沉默中感到不满。

弥合差距的模式

在执行指令之前先对其进行分解。 在回答之前,明确识别直接请求,推断可能的最终目标,挖掘未说明的约束条件,并检查是否存在偏差。这是一种提示词模式(prompting pattern),而非架构变更。它增加了一个推理步骤,询问:用户到底想完成什么?研究称之为“意图具体化”(intent concretization)——挖掘潜在意图的提示词重写,其胜率比原始版本高出 80%。

在交互模型中建立主动澄清机制。 基础版 GPT-4o 仅在 15% 的情况下会提出澄清问题。专门针对协作交互训练的模型提问比例达到 52%,任务表现提升了 18.5%,用户满意度提高了 17.6%。违背直觉的发现是:当澄清问题具有针对性时,用户并不会觉得它是一种阻碍。相反,他们感到自己被理解了。

实际执行建议:设计你的系统提示词,在处理复杂任务之前先提出一个聚焦的澄清问题,而不是盲目推测意图并直接开始。根据任务复杂度来决定是否需要澄清——简单的请求不需要,而多步骤任务通常需要。

将意图追踪与执行分离。 多轮对话性能下降的原因在于,随着对话历史的增加,模型会迷失用户真正想要完成的目标。一个显式维护目标表示的“中介”(Mediator)组件——描述为“用户正试图执行 X,约束条件为 Y,已经尝试过 Z”——并将该表示输入执行模型,可以恢复大约 20% 的多轮对话性能损失。

这不需要第二个模型。它可以实现为一个专门的上下文前缀,在每一轮对话后用显式的目标陈述进行更新。关键在于将目标追踪视为一等公民(first-class artifact),而不是隐含在对话历史中。

在多轮对话中显式追踪目标状态。 用户目标可以分为五个可追踪的类别:任务目标、需求、偏好、个人档案和政策约束。相比于每次调用都完全依赖模型进行意图推断,显式维护并更新这些类别的状态的系统,在多轮对话成功率上展现出 14 个百分点的绝对提升。在实践中,这表现为一个描述用户目标的结构化 JSON 对象,它会被增量更新,并随着每个请求向前传递。

衡量意图满意度,而不仅仅是输出质量。 最能直接解决这一差距的评估改进是:增加一个独立的评估环节,询问“用户潜在的目标是否得到了解决?”,这与“输出质量是否高?”是不同的。这两个问题会有不同的答案。一个回答可以是流畅、准确、格式良好且结构正确的,但却完全偏离了重点。你需要同时衡量这两个维度才能发现问题。

生产环境追踪记录的错误分析比任何基准测试(benchmark)更能揭示意图失败。方法论很机械化:对用户提供后续纠正的追踪记录进行抽样,按失败类型对纠正进行聚类,并量化哪些类别最常见。意图失败表现为“这不是我想要的”或“你解决的问题不对”——这与事实更正或格式投诉有着明显的区别。

能力与实用性之间的差距

意图差距是一个伪装成模型问题的产品问题。底层模型具备推断用户目标的能力——GOOD(贝叶斯目标推断)在 Llama-3 8B 上的准确率达到 94%,而这并不是一个多么复杂的模型。失败之处在于,生产环境的部署并没有要求模型显式地追踪和验证目标,而是仅仅要求模型回答问题。

产品决策的关键在于,是优化那种感觉流畅的交互(最小化摩擦、即时响应、无中断),还是优化那种能完成用户实际目标的交互。Klarna 直接吸取了这一教训。他们的 AI 系统每月处理 230 万次对话,效率极高。但到了 2025 年中期,他们逆转了方向,重新雇佣了人工客服。官方给出的原因是:AI 虽然能正确回答问题,但无法处理用户真正需要的同理心、细微差别和复杂的解决方案。

这就是生产环境中的意图差距。系统完成了被要求做的事,但它并没有做那些真正被需要的事。

弥合这一差距需要将目标推断视为一等工程关注点:进行显式追踪、专门评估,并进行系统设计,优先考虑理解用户的真实需求,而不是仅仅回答他们的字面意思。

References:Let's stay in touch and Follow me for more thoughts and updates