跳到主要内容

10倍提示工程师的神话:为什么系统设计比提示词打磨更重要

· 阅读需 9 分钟
Tian Pan
Software Engineer

在AI工程领域,有一种持久的信念:一个平庸的LLM应用和一个优秀的LLM应用之间的差距,归结于提示词的精心打磨。团队雇佣"提示工程师",对措辞进行数十次A/B测试,花好几周纠结"你必须"是否比"请确保"表现更好。与此同时,检索管道输入的是垃圾上下文,没有输出验证,错误处理策略是"希望模型能搞定"。

数据讲述了一个不同的故事。典型LLM应用的前五小时提示词工作带来大约35%的提升。接下来的二十小时带来5%。再接下来的四十小时?大约1%。那些早期认识到这条曲线并将精力重新导向系统设计的团队,始终优于那些持续打磨提示词的团队。

收益递减曲线比你想象的更陡峭

每个生产LLM应用都会碰到同样的墙。一个电商团队最近记录了他们的历程:经过三周超过80次手动提示词迭代后,他们终于测量了实际准确率,发现只有62%——远低于他们直觉估计的80%。应用结构化的提示工程最佳实践(清晰的角色定义、编号的决策规则、明确的输出模式和少量few-shot示例)将准确率提升到71%。再迭代十次推到74%。然后曲线趋平了。

这种模式到处重复出现。"足够好"的提示词——一个有清晰角色、具体决策规则、输出格式和2-6个示例的提示词——捕获了绝大多数可用收益。超过这个点,你只是在通过重新排列文字争取零点几个百分点。

一个有用的启发式规则:如果十次专注的提示词迭代没有修复某个特定的失败模式,那么问题是架构性的,而非语言性的。再多的措辞调整也无法弥补返回无关文档的检索管道、试图处理五个不同任务的单一庞大提示词,或者直接发送给用户而没有验证层的输出。

真正推动指标的是什么

当团队审计他们的LLM应用并追踪失败的根本原因时,分布是很有启示性的。生产系统中主导质量的因素根本与提示词无关:

  • 检索质量:你的系统提供给模型的文档和上下文比你如何提问更重要。一个平庸的提示词配上优秀的检索,每次都能胜过一个精美的提示词配上嘈杂的上下文。
  • 任务分解:一个法律文档分析器花了三周优化一个庞大的提示词,在80%的准确率处停滞不前。将任务拆分为专门的子提示词——每个长度仅为原始提示词的四分之一——在两小时内将可靠性翻倍。
  • 输出验证:添加结构化输出模式和后处理检查可以捕获任何提示词都无法防止的错误。模型会产生幻觉。这不是提示词问题;这是系统问题。
  • 工具和函数描述:同一个法律分析器仅通过重写模糊的函数名称和描述,准确率就从80%立即跳升到88%——完全没有触及主提示词。
  • 错误处理和回退逻辑:当模型返回格式错误的输出时会发生什么?当检索没有返回相关内容时?当用户输入模糊时?这些决策对可靠性的影响远大于提示词措辞。

建议构建生产LLM应用的团队时间分配:20%用于提示工程,30%用于评估和测量基础设施,50%用于架构、工具和数据质量。大多数团队把这个比例倒过来了。

上下文工程的转变

行业正在赶上这一现实。最初只是从业者的非正式观察,现已成为一个公认的学科:上下文工程。与关注如何提问的提示工程不同,上下文工程关注的是围绕你的请求有什么信息

LangChain 2025年Agent工程现状报告发现,57%的组织现在在生产中使用AI智能体,但32%将质量列为首要障碍。关键洞察:大多数质量失败追溯到糟糕的上下文管理,而非糟糕的提示词。团队失败是因为他们将错误的文档输入上下文窗口,而不是因为他们的指令措辞不当。

上下文工程将模型的输入视为需要设计的完整信息环境,而非需要微调的字符串。这意味着要考虑文档如何分块、哪些嵌入模型处理检索、记忆如何在交互间持久化、以及原始文本旁边包含什么元数据。已经完成这一转变的组织报告了40-60%的成本节约和显著减少的智能体失败。

实际意义是明确的:构建可靠AI系统所需的技能看起来更像传统软件工程(数据管道、系统设计、评估基础设施),而不是创意写作。

为什么提示词技能差异比你预期的更小

"10倍提示工程师"的叙事假设提示词制作技能有很大的方差——专家的提示词将远胜于合格开发者的提示词。实际上,这种方差很窄且在缩小。

模型在从直接指令中理解意图方面不断变好。研究表明,高质量模型从简单提示词中产生更好的结果,而更便宜的模型从复杂的提示技术中受益更多。随着行业向更强大的基础模型收敛,提示词复杂度的回报进一步下降。

与此同时,系统设计技能的方差仍然巨大。一个架构良好的LLM应用和一个设计糟糕的应用之间的差异不是10%——而是一个在生产中运行的系统和一个不运行的系统之间的差异。考虑这些系统级别的决策:

  • 单一提示词 vs. 分解流水线:一个营销内容生成器在一个提示词中处理博客、社交媒体、邮件和广告,对比四个专门的提示词。架构选择主导了质量结果。
  • 原始模型输出 vs. 验证流水线:直接将模型响应发送给用户,对比通过格式验证、基于检索源的事实检查和基于置信度的人工审核路由。
  • 静态上下文 vs. 动态检索:硬编码示例和指令,对比构建一个根据特定输入呈现相关上下文的检索层。

这些决策中的每一个对输出质量的影响都大于任何提示词优化。用平均提示词做出好的架构选择的工程师,将始终胜过在设计糟糕的系统中工作的提示词大师。

评估差距

过度投入提示工程最具破坏性的后果或许是对评估的投入不足。花四十小时迭代提示词的团队通常花零小时构建系统化的评估基础设施。

没有测量,提示词优化就是迷信。那个电商团队在实际测量出62%之前,有三周时间相信他们的准确率在80%以上。他们在盲目优化——改变文字并基于几个精选例子假设改进。

生产评估需要:

  • 覆盖边缘情况的代表性测试集,而不仅仅是顺利路径
  • 在每次提示词更改时运行的自动化评分
  • 区分缺失上下文、错误推理、格式错误和幻觉的失败分类
  • 将模型准确率与实际结果关联的业务指标对齐

评估基础设施本身通常会揭示问题从来不在提示词。当你系统地对失败进行分类时,你通常会发现60-70%追溯到上下文质量,15-20%追溯到任务设计,只有10-15%追溯到提示词措辞。首先构建这种基础设施的团队在低杠杆的提示词迭代上浪费的时间要少得多。

LLM应用质量的实用层级

如果你正在构建或改进LLM应用,以下是每小时投入最大化影响的操作顺序:

  1. 让提示词达到"足够好"(5-10小时):清晰的角色、编号的决策规则、明确的输出格式、2-6个示例、需要时的思维链。如果你有了这些但准确率仍低于目标,问题几乎肯定不在提示词。

  2. 构建评估基础设施(在任何进一步优化之前):你无法改进你无法测量的东西。一个包含50-100个代表性测试用例和自动化评分的最小可行评估套件是不可协商的。

  3. 修复检索和上下文质量:分析失败。如果模型缺乏正确回答所需的信息,任何提示词都无济于事。改进分块、嵌入质量和检索相关性。

  4. 分解复杂任务:如果单个提示词处理多个不同的职责,就拆分它。专门化的提示词更短、更可靠、更容易调试。

  5. 添加输出验证和错误处理:结构化输出模式、置信度阈值、格式验证和边缘情况的优雅回退。

  6. 最后才微调提示词以解决剩余失败:真正与提示词相关的10-15%的失败现在可以通过有针对性的更改来解决,由评估数据而非直觉指导。

停止为错误的技能招聘

10倍提示工程师的神话误导了招聘、培训和团队结构。那些大量配备提示词专家而忽视系统工程的组织正在优化错误的变量。构建最佳LLM应用的从业者不是那些拥有最具创意提示词的人——他们是理解检索系统、评估方法论、错误处理和分布式系统设计的工程师。

提示工程是一项必要的技能,但它是入门级的——相当于知道如何编写清晰的函数签名。杠杆在于围绕提示词的一切:流入其中的数据、随后的验证,以及编排这一切的架构。如果你的团队还在争论"作为专家行事"是否优于"你是一位资深分析师",你在解决错误的问题。

References:Let's stay in touch and Follow me for more thoughts and updates