提示工程的职业陷阱:哪些 AI 技能会复利增长,哪些会逐渐退化
在 2023 年,“提示词工程师”(prompt engineer)是科技领域搜索频率最高的职位名称之一。LinkedIn 上到处都是重新包装个人简介的工程师。招聘信息许诺给那些懂得如何诱导 GPT-4 表现的人六位数的薪水。但职位描述中没有提到的是,其中列出的许多技能已经处于“借来的时间”中——到 2026 年,那些能够分辨出持久技能与衰减技能区别的工程师,最终的境遇将大不相同。
提示词工程的职业陷阱并不在于这个领域消失了,而在于它变化太快,以至于在 12 个月内建立的技能到第 18 个月就变成了负资产。那些在错误的层面过度投入而忽视了正确层面的工程师发现,随着下一个模型版本的发布,他们所掌握的专业知识变得毫无意义。
衰减的技能集群
一些 AI 工程技能具有可衡量的半衰期。它们在模型能力曲 线的特定时刻确实有价值,但随着基准能力的提升,它们就会被侵蚀。
手动少样本示例(Manual few-shot examples) 在 GPT-3 时代至关重要。2020–2022 年间的模型需要精心挑选的示例才能可靠地遵循指令;零样本(zero-shot)和五样本(five-shot)之间的差异往往决定了模型是否可用。到 2024 年,前沿模型的指令遵循能力已经提高到从业者将其任务描述为“尽管开口问”的程度。
少样本专家技能所赋予的优势基本崩溃了。那些为了管理和版本化少样本库而构建工作流、流水线和内部库的工程师发现,底层问题已经在模型层得到了解决。
思维链提示模板(Chain-of-thought prompt templates) 遵循了类似的轨迹。几年来,在提示词工程师的工具箱中,添加“让我们一步步思考”或构建结构化的推理支架是最可靠的技术之一。沃顿商学院的研究记录了这种逆转:对于最新一代的原生推理模型,显式的思维链(CoT)提示仅带来 2–3% 的增益,却增加了 20–80% 的响应延迟开销。对于某些任务——涉及内隐统计学习的任务——在 o1 级别的模型中添加思维链支架,其准确性实际上比零样本降低了超过 36 个百分点。这项技术不仅进入了平台期,而且在很大一部分用例中变得适得其反。
特定模型的措辞技巧 代表了最脆弱的类别。这些是在社区中流传的技术,比如“如果你这样措辞,效果会更好”或“这个模型对角色设定反馈良好”。它们通常是真实的,但它们是模型训练怪癖的产物,而不是任务的持久属性。当模型更新、微调或被替换时,这些技巧通常会在毫无预警的情况下失效。如果一个工程师的主要价值在于知道针对特定模型版本的“正确咒语”,那么每次供应商发布新检查点时,你都处于危险的境地。
手动检索阈值调优——决定相似度截断点、分块大小(chunk size)、重叠参数——也处于类似的境地。它在今天具有真正的价值,因为模型和检索流水线仍有缺陷,需要人工校准。但这种参数优化正是通过更好的默认设置、更好的嵌入模型以及最终内置的自适应检索来改进的对象。那些花费数年时间培养检索超参数直觉的工程师,在默认值足够好时,需要为这些专业知识寻找新的去处。
复利增长的技能集群
与这些衰减技能相对应的是一类能力,无论当前是哪一代模型,它们的价值都在持续增长。这些技能有一个共同点:它们解决的是即便模型原始能力提升也依然难以处理的问题。
评估设计(Evaluation design) 是最明显的例子。每一代模型都会创造新的能力,也会产生新的失败方式。编写良好评估(evals)的学科(寻找真实任务、定义明确的成功标准、构建不会发生偏移的评分器)无论底层模型是 GPT-4 还是当前一代,都同样适用。
更重要的是,随着 AI 系统走向自主化,糟糕评估的代价会产生复利:一个运行在错误成功标准上的智能体(agent)可能会运行数千次,在有人察觉之前产生数千个错误的决定。建立起严谨评估实践的工程师会发现,这种投入可以直接应用到每一个新模型的部署中,而不需要从头再来。
行为规范(Behavioral specification) 是精确描述系统应该做什么和不应该做什么的技能——不是用提示词,而是用属性。行为规范命名了不变性(invariants):“此系统绝不能将一个用户的数据泄露给另一个用户”,“当置信度低于阈值 X 时,响应必须承认不确定性”,“拒绝时应解释系统可以提供什么帮助”。这些规范在模型升级中依然有效,因为它们描述的是产品层的要求,而不是模型层的实现技巧。那些以规范而非提示词来思考的工程师发现,他们的工作变成了模型之间的连接纽带,而不是模型更换时必须重构的层面。
- https://gail.wharton.upenn.edu/research-and-insights/tech-report-chain-of-thought/
- https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents
- https://stackoverflow.blog/2025/12/26/ai-vs-gen-z/
- https://newsletter.port.io/p/the-hidden-technical-debt-of-agentic
