跳到主要内容

参差不齐的边界:为什么 AI 在简单任务上会失败,以及这对你的产品意味着什么

· 阅读需 11 分钟
Tian Pan
Software Engineer

在 AI 产品开发中,有一个常见的假设:如果一个模型能处理难题,它就一定能处理附近的简单任务。这个假设是错误的,它导致了一类生产环境下的失败,而无论你读多少基准测试报告都无法为此做好准备。

这一潜在现象的研究术语是“破碎边界”(jagged frontier)——AI 的能力边界并不是一条平滑的线,并非难题在界外、简单任务在界内。它是一个参差不齐、不可预测的形状。AI 系统可以编写生产级别的数据库查询优化器,却仍然会算错图中两条线段是否相交。它们可以通过博士级别的科学考试,却在涉及空间关系的儿童谜题上失败。它们可以综合 50 页的文档,然后对自己刚刚读过的一段文字产生充满自信的幻觉。

这种破碎性并不是会在下一个版本中修复的 bug。它反映了这些模型学习方式的某种结构性特征,并且对你应该如何设计、测试和发布 AI 驱动的功能有着直接的影响。

概念的来源

“破碎技术边界”(jagged technological frontier)一词是由来自哈佛商学院、麻省理工学院和沃顿商学院的研究人员在 2025 年发表于《组织科学》(Organization Science)的一项实地实验中提出的。该研究招募了来自波士顿咨询公司(BCG)的 758 名知识工作者,让他们完成现实的管理咨询任务——市场分析、研究综合、报告撰写。

每个人都在引用的发现是:AI 辅助的顾问完成任务的速度快了 25%,产出质量被评定为高出 40%,成功率提高了 12.5 个百分点。但对产品团队而言,重要的发现是第二个:对于那些落在 AI 能力边界之外的任务,强行使用 AI 的顾问产出正确解决方案的可能性,比完全不使用 AI 的顾问低 19 个百分点。

AI 不仅仅是没能提供帮助。它让经验丰富的专业人士的表现比他们独自工作时还要糟糕。AI 输出的自信和流利掩盖了其错误性。

“破碎”在实践中究竟意味着什么

能力边界并不以人类直觉理解的任何任务复杂度来定义。这种破碎性源于训练数据的分布、目标函数的性质以及下一标记预测(next-token prediction)的特定失败模式。

几个说明这种形状的例子:

AI 经常超过人类专家表现的领域:

  • 写作、编辑和商业构思(独立评审员对 AI 生成的创业想法的评分高于商学院学生的评分)
  • 情感支持和重新评估(在受控研究中表现优于 85% 的人类)
  • 对格式良好的文档的阅读理解
  • 常见模式的代码生成(最先进的智能体在 SWE-bench 上的表现现已超过 80%)
  • 数学竞赛题目(o1-preview 在 2024 年 AIME 中比 GPT-4o 高出 43 分)

AI 以令从业者惊讶的方式失败的领域:

  • 空间推理:能够生成完美几何证明的模型,在被问及真实图像中渲染出的两条线是否交叉时却会失败
  • 顺序规划:日历调度、迷宫导航和约束满足问题,即使经过扩展推理,也只显示出极小的改进
  • 编码和格式的边缘情况:o1 和 o3 在处理具有隐藏编码问题的 CSV 文件时会静默失败
  • 对细长或悬浮物体的视觉感知:Waymo 的第五代自动驾驶系统在 1,212 辆车与细障碍物(链条、电线杆、悬浮门)发生碰撞后被召回——尽管在标准障碍物上表现出色,但其感知栈无法可靠地检测到这些物体

这种模式并非随机。拥有大量、一致训练样本的任务往往位于边界内。需要基于现实世界的推理,或在没有捷径的情况下进行仔细的顺序逻辑的任务,往往位于边界外。但这种确切的形状无法从基本原理中预测,这正是产品团队的核心问题。

产品设计陷阱

一旦你理解了破碎边界,AI 产品设计中的几种失败模式就变得可以预见。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates