参差不齐的边界:为什么 AI 在简单任务上会失败,以及这对你的产品意味着什么
· 阅读需 11 分钟
在 AI 产品开发中,有一个常见的假设:如果一个模型能处理难题,它就一定能处理附近的简单任务。这个假设是错误的,它导致了一类生产环境下的失败,而无论你读多少基准测试报告都无法为此做好准备。
这一潜在现象的研究术语是“破碎边界”(jagged frontier)——AI 的能力边界并不是一条平滑的线,并非难题在界外、简单任务在界内。它是一个参差不齐、不可预测的形状。AI 系统可以编写生产级别的数据库查询优化器,却仍然会算错图中两条线段是否相交。它们可以通过博士级别的科学考试,却在涉及空间关系的儿童谜题上失败。它们可以综合 50 页的文档,然后对自己刚刚读过的一段文字产生充满自信的幻觉。
这种破碎性并不是会在下一个版本中修复的 bug。它反映了这些模型学习方式的某种结构性特征,并且对你应该如何设计、测试和发布 AI 驱动的功能有着直接的影响。
