能力激发 vs. 提示工程:让模型调用它已经掌握的知识
大多数团队在优化 LLM 提示词时,其实在解决一个错误的问题。他们花好几周打磨指令的措辞——调整用词、重排约束条件、改变语气——而真正的瓶颈却在于:模型其实已经知道如何完成这个任务,只是你的提示词从未触发正确的能力路径。
这就是提示工程与能力激发之间的本质区别。提示工程解决的是"如何表达你想要什么",而能力激发解决的是"如何唤醒模型已有的能力"。这一区分至关重要,因为两者的修复方式截然不同——误判问题所在,会让你在错误的方向上白白迭代数月。
知识就在那里——你的提示词没有触达它
每个从业者都见过这样的场景:你向模型提一个问题,得到一个平庸的回答。你用更多上下文重新描述 这个问题,回答突然大幅改善——不是因为你提供了新信息,而是因为你激活了模型学习表征中的另一个区域。
这不是偶然,而是大型语言模型运作方式的一个基本特性。这些模型在训练过程中压缩了海量知识,但这些知识是以关联方式而非层级方式组织的。从你的提示到相关知识的路径,取决于你的输入激活了哪些关联。措辞上细微的差异,可能会导致模型走向完全不同的内部表征。
关于知识注入式与激发式提示优化的研究,清晰地揭示了这一点。研究人员测试了激发类方法——即试图解锁模型已有知识的技术——发现优化后的提示词纳入的领域专属关键点不足 15 个,学习增益低于 20%。这些提示词通过模式匹配在验证集上取得了更好的分数,却没能解决底层知识的缺失。换句话说,当知识本身不存在时,激发方法会遭遇天花板。
关键的诊断性问题是:模型缺少的是知识本身,还是通往知识的激活路径?搞错这一点,会让你陷入代价高昂的死胡同。
三种真正有效的激发技术
当知识存在但处于休眠状态时,有三种技术能稳定地超越标准提示工程的表现。
结构化分解
不要要求模型一次性解决一个复杂问题,而是将其拆解为子问题,每个子问题分别激活不同的知识领域。思维链提示是最著名的例子——在数学题中加入"让我们一步步思考",能将准确率从接近随机水平提升到 GSM8K 等基准测试的顶尖水平。但结构化分解远不止思维链这一种。
关键洞察在于:能力较弱的模型在获得适当的分解框架后,可以媲美能力更强的模型。一个 5400 亿参数的模型,配合思维链示例,能达到更小模型无论提供多少示例都无法企及的准确率。但结构化分解同样能帮助小模型超水平发挥,方法是将每个子问题路由到模型最擅长的相关能力上。
实践模式:与其问"分析这个系统的故障模式",不如改为"第一,列出各组件及其依赖关系;第二,针对每个组件描述其故障时会发生什么;第三,识别哪些故障会产生级联效应"。每一步激活不同的能力——分类、因果推理和图分析——而不是寄希望于单一提示同时触发全部三种能力。
类比启动
发表于《自然·通讯》的研究表明,人类提供的类比引导能在某些任务上将 LLM 的表现放大至原来的 10 倍。其机制引人注目:结构化的引导通过类比桥梁激活模型的潜在能力,而这些桥梁是模型无法自主发现的。
这之所以奏效,是因为类比创造了激活捷径。当你说"把这个分布式系统问题想象成交通路由问题",你并不是在教模型分布式系统的知识。你是在将模型的分布式系统知识与交通路由知识连接起来,让它能够调用原本无法检索到的解决方案模式。
实际应用方法:先找出模型对某类问题结构最自然驾驭的领域,再将你的实际问题包装成对该领域的类比。数据库一致性问题可以类比为银行转账事务,并发问题可以类比为餐厅厨房的协调配合。模型本就了解这两个领域——类比只是在它们之间架起了一座桥。
专家角色设定(附注意事项)
"你是 X 领域的专家"大概是生产系统中最常见的激发技术。但最新研究揭示,这一技术远比从业者所以为的复杂得多。
人格提示能提升信息抽取任务(+0.65 分)、STEM 任务(+0.60 分)和推理任务(+0.40 分)的表现。但它会显著拖累数学、代码和事实性知识任务的表现。在 MMLU 基准测试上,加入详细专家人格后,准确率从基准线 71.6% 下降到 66.3%——这是一个不容忽视的退步。
机制在于:专家人格激活了模型的指令遵循模式,该模式优先追求"听起来权威"而非"保持准确"。对于语气和结构重要的任务(写作、摘要、信息抽取),这有帮助;对于精确性重要的任务(数学、事实回忆、代码生成),这会造成伤害。
解决方案不是完全避免专家角色设定,而是有条件地使用它。当你需要更好的格式、结构或领域适宜的词汇时,将模型设定为专家;当验证和准确性是优先级时,切换回中性提示。
当激发失效时:知识注入的替代方案
关于激发,最重要的事情是知道何时停止 尝试。如果模型本就没有这些知识,再聪明的提示都无法凭空创造它。
针对金融、法律和医疗领域知识密集型任务的研究表明,知识注入方法——即直接在提示词中注入领域知识——实现了 28.3% 的学习增益,而激发方法仅有 7.5%。在基准准确率为 28.3% 的专项医疗基准测试中,知识注入优化达到了 51.7%,远超任何激发技术所能企及的上限。
这构成了一套实用的诊断框架:
- 优先尝试激发:当任务使用的是模型在训练中很可能接触过的通用知识时。重构问题、添加类比、使用分解。
- 转向知识注入:当激发遇到瓶颈时。如果三种不同的激发方法都只产生相似的平庸结果,那么模型很可能缺少的是知识本身,而非激活路径。通过示例、参考材料或检索增强生成直接注入领域知识。
- 两者结合:在生产系统中结合使用。用激发技术唤醒模型的通用能力,再用知识注入填补缺口处的领域特定知识。
最糟糕的结果是花几周时间打磨提示词,试图激发模型根本不具备的知识——而你本可以在第一天就直接提供这些知识。
隐形的能力差距
你发给 LLM 的每一个提示都是欠规格的。你携带着隐含假设和未言明的上下文,模型会用自己的理解来填补这些空白。当它的填补与你的预期吻合时,系统感觉像魔法;当不吻合时,系统感觉像坏掉了。
能力差距是隐形的,直到你踩上去才会发现。一个模型可能完美处理 95% 的用例,却在那 5% 的情况下灾难性地失 败——恰好是你的隐含假设与模型理解发生偏离之处。这不是提示工程问题,而是激发问题。模型可能具备处理这些边缘案例的能力,只是你的提示没有激活正确的表征。
实际防御手段是系统性的失败分类。当模型失败时,对失败进行分类:
- 虚假瓶颈:模型有能力,但某些微不足道的因素阻碍了它——格式问题、不必要的拒绝、对输出结构的错误假设。在提示层面修复这些问题。
- 真实瓶颈:模型真正缺乏能力或知识。再多的激发也无济于事。注入知识或切换到能力更强的模型。
- 权衡取舍:修复这个失败会破坏其他方面。这是最难处理的情况,需要在完整的任务分布上进行细致评估。
这一分类框架源自能力评估中使用的评估方法论,能帮助你避免最常见的错误:将所有失败都当作提示工程问题来处理,而实际上许多是激发问题或真实的能力限制。
聪明提示词的收益递减
随着模型能力的提升,复杂提示技巧的边际价值正在下降。思维链提示对早期模型来说是颠覆性的,但在已经将逐步推理内化到训练中的新架构上,其效果正在递减。
这暗示着一种实用的策略转变。对于当代模型,花更少的时间在提示技巧上,花更多的时间在:
- 系统性探测你的任务分布,了解模型真正知道什么
- 通过结构化输入构建清晰的激活路径,而不是堆砌大量指令
- 直接提供缺失的知识,而不是寄希望于聪明的措辞能凭空召唤它
能可靠落地 AI 功能的团队,不是那些拥有最聪明提示词的团队。而是那些能正确诊断每一次失败——究竟是激发问题、知识问题还是真实的能力限制——并采取正确修复措施的团队。这种诊断能力,比任何提示技巧都更有价值。
- https://evaluations.metr.org/elicitation-protocol/
- https://arxiv.org/html/2511.10465
- https://arxiv.org/abs/2201.11903
- https://www.searchenginejournal.com/research-you-are-an-expert-prompts-can-damage-factual-accuracy/570397/
- https://arxiv.org/html/2505.16782v1
- https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5285532
- https://gilnoh.github.io/2025/12/21/LLM-unpredictability-part2.html
