参差不齐的边界：为什么 AI 在简单任务上会失败，以及这对你的产品意味着什么

2026年4月17日 · 阅读需 11 分钟

Software Engineer

在 AI 产品开发中，有一个常见的假设：如果一个模型能处理难题，它就一定能处理附近的简单任务。这个假设是错误的，它导致了一类生产环境下的失败，而无论你读多少基准测试报告都无法为此做好准备。

这一潜在现象的研究术语是“破碎边界”（jagged frontier）——AI 的能力边界并不是一条平滑的线，并非难题在界外、简单任务在界内。它是一个参差不齐、不可预测的形状。AI 系统可以编写生产级别的数据库查询优化器，却仍然会算错图中两条线段是否相交。它们可以通过博士级别的科学考试，却在涉及空间关系的儿童谜题上失败。它们可以综合 50 页的文档，然后对自己刚刚读过的一段文字产生充满自信的幻觉。

这种破碎性并不是会在下一个版本中修复的 bug。它反映了这些模型学习方式的某种结构性特征，并且对你应该如何设计、测试和发布 AI 驱动的功能有着直接的影响。

概念的来源

“破碎技术边界”（jagged technological frontier）一词是由来自哈佛商学院、麻省理工学院和沃顿商学院的研究人员在 2025 年发表于《组织科学》（Organization Science）的一项实地实验中提出的。该研究招募了来自波士顿咨询公司（BCG）的 758 名知识工作者，让他们完成现实的管理咨询任务——市场分析、研究综合、报告撰写。

每个人都在引用的发现是：AI 辅助的顾问完成任务的速度快了 25%，产出质量被评定为高出 40%，成功率提高了 12.5 个百分点。但对产品团队而言，重要的发现是第二个：对于那些落在 AI 能力边界之外的任务，强行使用 AI 的顾问产出正确解决方案的可能性，比完全不使用 AI 的顾问低 19 个百分点。

AI 不仅仅是没能提供帮助。它让经验丰富的专业人士的表现比他们独自工作时还要糟糕。AI 输出的自信和流利掩盖了其错误性。

“破碎”在实践中究竟意味着什么

能力边界并不以人类直觉理解的任何任务复杂度来定义。这种破碎性源于训练数据的分布、目标函数的性质以及下一标记预测（next-token prediction）的特定失败模式。

几个说明这种形状的例子：

AI 经常超过人类专家表现的领域：

写作、编辑和商业构思（独立评审员对 AI 生成的创业想法的评分高于商学院学生的评分）
情感支持和重新评估（在受控研究中表现优于 85% 的人类）
对格式良好的文档的阅读理解
常见模式的代码生成（最先进的智能体在 SWE-bench 上的表现现已超过 80%）
数学竞赛题目（o1-preview 在 2024 年 AIME 中比 GPT-4o 高出 43 分）

AI 以令从业者惊讶的方式失败的领域：

空间推理：能够生成完美几何证明的模型，在被问及真实图像中渲染出的两条线是否交叉时却会失败
顺序规划：日历调度、迷宫导航和约束满足问题，即使经过扩展推理，也只显示出极小的改进
编码和格式的边缘情况：o1 和 o3 在处理具有隐藏编码问题的 CSV 文件时会静默失败
对细长或悬浮物体的视觉感知：Waymo 的第五代自动驾驶系统在 1,212 辆车与细障碍物（链条、电线杆、悬浮门）发生碰撞后被召回——尽管在标准障碍物上表现出色，但其感知栈无法可靠地检测到这些物体

这种模式并非随机。拥有大量、一致训练样本的任务往往位于边界内。需要基于现实世界的推理，或在没有捷径的情况下进行仔细的顺序逻辑的任务，往往位于边界外。但这种确切的形状无法从基本原理中预测，这正是产品团队的核心问题。

产品设计陷阱

一旦你理解了破碎边界，AI 产品设计中的几种失败模式就变得可以预见。

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

参差不齐的边界：为什么 AI 在简单任务上会失败，以及这对你的产品意味着什么

概念的来源

“破碎”在实践中究竟意味着什么

产品设计陷阱

Recommended Reading

关于 Tian Pan

概念的来源​

“破碎”在实践中究竟意味着什么​

产品设计陷阱​

Recommended Reading

关于 Tian Pan

概念的来源

“破碎”在实践中究竟意味着什么

产品设计陷阱