跳到主要内容

意图鸿沟:当你的 LLM 完美回答了错误的问题

· 阅读需 11 分钟
Tian Pan
Software Engineer

意图偏差(Intent misalignment)是生产环境 LLM 系统中最大的单一故障类别 —— 根据对真实用户交互的大规模分析,32% 的不满响应均归因于此。这既不是幻觉,也不是拒绝回答,更不是格式错误。它是指模型正确地回答了问题,却完全偏离了用户的实际需求。

这就是意图鸿沟(intent gap):即用户“所说”与“所想”之间的距离。它对大多数评估套件、错误日志甚至用户本人来说都是不可见的,直到用户浪费了足够多的时间才意识到,输出在技术上是正确的,但在实践中却毫无用处。

用户真正想要的四个层面

思考意图最有效的框架源于顶尖 AI 实验室训练模型解析用户请求的方式。任何用户输入都包含四个不同的层面:

直接愿望(Immediate desires) 是字面请求 —— 即用户输入的内容。例如:修复这个 Bug、总结这份文档、编写用于电子邮件验证的正则表达式。

最终目标(Final goals) 是更深层的动机。要求修复 Bug 的用户想要的是一个能正常运行的程序。他们希望在周五前发布。他们希望凌晨 3 点不再接到报警。

背景需求(Background desiderata) 是用户默认你已经知晓的未声明约束:不要把我的编程语言从 Python 改为 Ruby。不要仅仅因为你发现了一个更简洁的方法就重写整个函数。保持现有的 API 接口。

自主权(Autonomy) 是用户做决定的权利,即使你并不同意。如果用户要求你以一种你认为并非最优的方式实现某些功能,正确的做法不是默不作声地替换。

生产环境中的 LLM 在满足直接愿望方面表现出色,但在实现最终目标方面表现平平,且经常违反背景需求。结果就是输出陷入了“恐怖谷”:技术上响应了需求,实际中却帮不上忙。

数据比你想象的更糟糕

意图偏差并非一个小众的边缘案例。2023 年一项分析 ChatGPT 真实不满模式的研究发现,它占所有负面响应的 32.18% —— 是最大的单一类别,排在事实错误和拒绝回答之前。由于意图失败导致的用户平均不满分为 5.56(满分 10 分),而且即便在用户纠正后,也只有 67% 的失败得到了解决。

多轮对话让情况变得糟糕得多。一项 2026 年关于多轮意图的研究发现,在不同模型系列和规模中,LLM 在多轮对话下的性能比单轮设置下降了约 30%。这并非是新模型能够解决的能力问题。研究人员将其描述为结构性问题:对话持续时间越长,积累的上下文就越多,模型就越有可能遵循最近的表述,而不是对底层目标保持连贯的认知。

最先进的模型在衡量主动解决问题能力(即在没有被明确要求的情况下识别并处理底层问题的能力)的基准测试中,仅达到了 40% 的成功率。Salesforce 在客户体验方面的 AI 部署显示,单轮成功率为 58%,但在多轮解决任务中则骤降至 35%。

代码智能体(Coding agents)展示了这一现象的特定版本。对用户意图的误分类率随着系统复杂性的增加而线性退化:从 5 个可能意图时的 11.7% 上升到 160 个意图时的 30%。

XY 问题,在大规模应用中重现

软件工程师对意图鸿沟的一种特定变体有一个称呼:XY 问题。用户遇到了问题 X,假设 Y 可以解决它,然后询问关于 Y 的问题 —— 却从未提及 X。优秀的工程师会注意到这种不匹配,并询问你到底想做什么。LLM 则不会。

一个有据可查的例子:用户要求某个前沿模型“输出文件名的最后三个字符”。两个受测模型都照做了。谁都没有质疑实际需求是否是提取文件扩展名 —— 这是一个在语义上接近但结构上不同的操作,能正确处理边缘情况。用户得到了他们要求的东西,而不是他们需要的东西。

这种失败模式扩展到了整个代码库。当代码智能体进行多轮操作时,每个单独合理的决策会累积成一位从业者所说的“垃圾蔓延(slop creep)” —— 这种渐进式的架构退化是由一个没有设计历史记忆、没有长期后果模型的智能体造成的。每一次更改在技术上都是站得住脚的,但结果却是代码库的失控。

根本原因是现代 LLM 被优化为“乐于助人”且“高效”。乐于助人意味着回答问题。高效意味着不问不必要的澄清问题。这些激励机制直接指向了意图鸿沟。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates