快速改进 AI 产品背后不那么光鲜的工作
大多数 AI 团队在产品发布六周后都会遇到同样的瓶颈。最初的演示令人印象深刻,原型按时交付,早期用户也褒奖有加。然而,"足以展示" 和 "足以留住用户" 之间的鸿沟变得无法避免。团队手忙脚乱——调整提示词、更换模型、添加防护措施——但产品却几乎纹丝不动。
那些真正能快速改进的团队有一个反直觉的习惯:他们花在架构上的时间较少,而花在审视数据上的时间更多。不是仪表盘。不是汇总指标。而是对话日志中那些原始的、糟糕的、单独的失败案例。
这是一份实践指南,旨在区分快速发展的 AI 团队和停滞不前的团队。
错误分析是投资回报率最高的活动,而你可能正在忽略它
当 AI 产品表现不佳时,本能反应是寻求解决方案——更好的模型、新的检索策略、提示词中增加更多示例。这种本能几乎总是操之过急的。在你解决正确的问题之前,你需要知道问题到底是什么。
正确的错误分析并不光鲜亮丽。它看起来像是查看 100-200 条对话痕迹,随意记录下出了什么问题,然后将这些笔记归类整理。
存在两种方法,大多数团队默认使用错误的那一种:
自上而下的分析从预设的类别开始——“幻觉”、“不相关回复”、“格式错误”——并要求审阅者为每个失败打标签。它设置快速,能生成整洁的电子表格。但它在发现真正重要的问题方面表现糟糕,因为领域特定的失败很少能映射到你在查看数据之前发明的通用类别上。
自下而上的分析从开放观察开始。你阅读失败案例,用简单的语言写下你注意到的问题,而不强行将其归入预设的类别。只有在积累了大量示例的笔记之后,你才将它们归类。分类体系是从数据中浮现出来的,而不是强加于数据之上的。
这种回报是不对称的。在大多数 AI 产品中,3-4 种失败类别就占所有问题的 60% 或更多。自下而上的分析能可靠地发现这些问题;而自上而下的分析则常常错过它们,因为真正的失败模式一开始就不在你的列表中。目标是达到理论饱和:持续审查直到没有真正新的失败类型出现。对于大多数产品来说,这会在 150-200 个示例左右发生。
