能力激发 vs. 提示工程：让模型调用它已经掌握的知识

2026年4月12日 · 阅读需 9 分钟

Software Engineer

大多数团队在优化 LLM 提示词时，其实在解决一个错误的问题。他们花好几周打磨指令的措辞——调整用词、重排约束条件、改变语气——而真正的瓶颈却在于：模型其实已经知道如何完成这个任务，只是你的提示词从未触发正确的能力路径。

这就是提示工程与能力激发之间的本质区别。提示工程解决的是"如何表达你想要什么"，而能力激发解决的是"如何唤醒模型已有的能力"。这一区分至关重要，因为两者的修复方式截然不同——误判问题所在，会让你在错误的方向上白白迭代数月。

知识就在那里——你的提示词没有触达它

每个从业者都见过这样的场景：你向模型提一个问题，得到一个平庸的回答。你用更多上下文重新描述这个问题，回答突然大幅改善——不是因为你提供了新信息，而是因为你激活了模型学习表征中的另一个区域。

这不是偶然，而是大型语言模型运作方式的一个基本特性。这些模型在训练过程中压缩了海量知识，但这些知识是以关联方式而非层级方式组织的。从你的提示到相关知识的路径，取决于你的输入激活了哪些关联。措辞上细微的差异，可能会导致模型走向完全不同的内部表征。

关于知识注入式与激发式提示优化的研究，清晰地揭示了这一点。研究人员测试了激发类方法——即试图解锁模型已有知识的技术——发现优化后的提示词纳入的领域专属关键点不足 15 个，学习增益低于 20%。这些提示词通过模式匹配在验证集上取得了更好的分数，却没能解决底层知识的缺失。换句话说，当知识本身不存在时，激发方法会遭遇天花板。

关键的诊断性问题是：模型缺少的是知识本身，还是通往知识的激活路径？搞错这一点，会让你陷入代价高昂的死胡同。

三种真正有效的激发技术

当知识存在但处于休眠状态时，有三种技术能稳定地超越标准提示工程的表现。

结构化分解

不要要求模型一次性解决一个复杂问题，而是将其拆解为子问题，每个子问题分别激活不同的知识领域。思维链提示是最著名的例子——在数学题中加入"让我们一步步思考"，能将准确率从接近随机水平提升到 GSM8K 等基准测试的顶尖水平。但结构化分解远不止思维链这一种。

关键洞察在于：能力较弱的模型在获得适当的分解框架后，可以媲美能力更强的模型。一个 5400 亿参数的模型，配合思维链示例，能达到更小模型无论提供多少示例都无法企及的准确率。但结构化分解同样能帮助小模型超水平发挥，方法是将每个子问题路由到模型最擅长的相关能力上。

实践模式：与其问"分析这个系统的故障模式"，不如改为"第一，列出各组件及其依赖关系；第二，针对每个组件描述其故障时会发生什么；第三，识别哪些故障会产生级联效应"。每一步激活不同的能力——分类、因果推理和图分析——而不是寄希望于单一提示同时触发全部三种能力。

类比启动

发表于《自然·通讯》的研究表明，人类提供的类比引导能在某些任务上将 LLM 的表现放大至原来的 10 倍。其机制引人注目：结构化的引导通过类比桥梁激活模型的潜在能力，而这些桥梁是模型无法自主发现的。

这之所以奏效，是因为类比创造了激活捷径。当你说"把这个分布式系统问题想象成交通路由问题"，你并不是在教模型分布式系统的知识。你是在将模型的分布式系统知识与交通路由知识连接起来，让它能够调用原本无法检索到的解决方案模式。

实际应用方法：先找出模型对某类问题结构最自然驾驭的领域，再将你的实际问题包装成对该领域的类比。数据库一致性问题可以类比为银行转账事务，并发问题可以类比为餐厅厨房的协调配合。模型本就了解这两个领域——类比只是在它们之间架起了一座桥。

专家角色设定（附注意事项）

"你是 X 领域的专家"大概是生产系统中最常见的激发技术。但最新研究揭示，这一技术远比从业者所以为的复杂得多。

人格提示能提升信息抽取任务（+0.65 分）、STEM 任务（+0.60 分）和推理任务（+0.40 分）的表现。但它会显著拖累数学、代码和事实性知识任务的表现。在 MMLU 基准测试上，加入详细专家人格后，准确率从基准线 71.6% 下降到 66.3%——这是一个不容忽视的退步。

机制在于：专家人格激活了模型的指令遵循模式，该模式优先追求"听起来权威"而非"保持准确"。对于语气和结构重要的任务（写作、摘要、信息抽取），这有帮助；对于精确性重要的任务（数学、事实回忆、代码生成），这会造成伤害。

解决方案不是完全避免专家角色设定，而是有条件地使用它。当你需要更好的格式、结构或领域适宜的词汇时，将模型设定为专家；当验证和准确性是优先级时，切换回中性提示。

当激发失效时：知识注入的替代方案

关于激发，最重要的事情是知道何时停止尝试。如果模型本就没有这些知识，再聪明的提示都无法凭空创造它。

针对金融、法律和医疗领域知识密集型任务的研究表明，知识注入方法——即直接在提示词中注入领域知识——实现了 28.3% 的学习增益，而激发方法仅有 7.5%。在基准准确率为 28.3% 的专项医疗基准测试中，知识注入优化达到了 51.7%，远超任何激发技术所能企及的上限。

这构成了一套实用的诊断框架：

优先尝试激发：当任务使用的是模型在训练中很可能接触过的通用知识时。重构问题、添加类比、使用分解。
转向知识注入：当激发遇到瓶颈时。如果三种不同的激发方法都只产生相似的平庸结果，那么模型很可能缺少的是知识本身，而非激活路径。通过示例、参考材料或检索增强生成直接注入领域知识。
两者结合：在生产系统中结合使用。用激发技术唤醒模型的通用能力，再用知识注入填补缺口处的领域特定知识。

最糟糕的结果是花几周时间打磨提示词，试图激发模型根本不具备的知识——而你本可以在第一天就直接提供这些知识。

隐形的能力差距

你发给 LLM 的每一个提示都是欠规格的。你携带着隐含假设和未言明的上下文，模型会用自己的理解来填补这些空白。当它的填补与你的预期吻合时，系统感觉像魔法；当不吻合时，系统感觉像坏掉了。

能力差距是隐形的，直到你踩上去才会发现。一个模型可能完美处理 95% 的用例，却在那 5% 的情况下灾难性地失败——恰好是你的隐含假设与模型理解发生偏离之处。这不是提示工程问题，而是激发问题。模型可能具备处理这些边缘案例的能力，只是你的提示没有激活正确的表征。

实际防御手段是系统性的失败分类。当模型失败时，对失败进行分类：

虚假瓶颈：模型有能力，但某些微不足道的因素阻碍了它——格式问题、不必要的拒绝、对输出结构的错误假设。在提示层面修复这些问题。
真实瓶颈：模型真正缺乏能力或知识。再多的激发也无济于事。注入知识或切换到能力更强的模型。
权衡取舍：修复这个失败会破坏其他方面。这是最难处理的情况，需要在完整的任务分布上进行细致评估。

这一分类框架源自能力评估中使用的评估方法论，能帮助你避免最常见的错误：将所有失败都当作提示工程问题来处理，而实际上许多是激发问题或真实的能力限制。

聪明提示词的收益递减

随着模型能力的提升，复杂提示技巧的边际价值正在下降。思维链提示对早期模型来说是颠覆性的，但在已经将逐步推理内化到训练中的新架构上，其效果正在递减。

这暗示着一种实用的策略转变。对于当代模型，花更少的时间在提示技巧上，花更多的时间在：

系统性探测你的任务分布，了解模型真正知道什么
通过结构化输入构建清晰的激活路径，而不是堆砌大量指令
直接提供缺失的知识，而不是寄希望于聪明的措辞能凭空召唤它

能可靠落地 AI 功能的团队，不是那些拥有最聪明提示词的团队。而是那些能正确诊断每一次失败——究竟是激发问题、知识问题还是真实的能力限制——并采取正确修复措施的团队。这种诊断能力，比任何提示技巧都更有价值。

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

能力激发 vs. 提示工程：让模型调用它已经掌握的知识

知识就在那里——你的提示词没有触达它

三种真正有效的激发技术

结构化分解

类比启动

专家角色设定（附注意事项）

当激发失效时：知识注入的替代方案

隐形的能力差距

聪明提示词的收益递减

Recommended Reading

关于 Tian Pan

知识就在那里——你的提示词没有触达它​

三种真正有效的激发技术​

结构化分解​

类比启动​

专家角色设定（附注意事项）​

当激发失效时：知识注入的替代方案​

隐形的能力差距​

聪明提示词的收益递减​

Recommended Reading

关于 Tian Pan

知识就在那里——你的提示词没有触达它

三种真正有效的激发技术

结构化分解

类比启动

专家角色设定（附注意事项）

当激发失效时：知识注入的替代方案

隐形的能力差距

聪明提示词的收益递减