跳到主要内容

企业 AI 的最后一公里难题:为何大多数试点项目从未到达生产

· 阅读需 8 分钟
Tian Pan
Software Engineer

一个在内部基准测试中得分 94%、在演示中令利益相关者印象深刻、通过所有离线评估的模型,进入生产后仍然可能跌落至 7% 的真实客户数据有效准确率。这不是假设——这是多个企业 AI 部署中有据可查的结果,也是一种更广泛模式的症状:从"试点成功"到"生产价值"之间的鸿沟,正是大多数企业 AI 悄然消亡的地方。

在各行各业,大约 85–88% 的企业 AI 试点项目从未到达生产。每启动 33 个 PoC,只有四个能够上线。尽管模型能力大幅提升,这一比例三年来几乎没有改变。失败的根源几乎从不在于模型是否足够好——几乎总是在于成功演示与真实用户真正依赖该系统完成实际工作之间所发生的事情。

最后一公里是组织问题,而非技术问题

在物流领域,"最后一公里"是配送最昂贵、最难预测的环节——从区域中转站到个人门口的最后一段路。企业 AI 具有同样的结构。研究和实验阶段是容易的那段路:受控数据、积极的团队、清晰的成功标准、极小的集成面。困难的那段路从你试图将该系统接入组织的真实基础设施、流程和人员时才真正开始。

这里的失败点几乎从不是"模型不够准确",而是:

  • 数据治理审查阻止了对试点阶段所用生产数据集的访问
  • IT 安全队列没有 SLA,且积压了 60 多个未处理请求
  • SSO 集成需要单独的采购流程,因为 AI 系统需要作为身份主体运行
  • 合规审查不知道如何对系统归类,默认选择阻止,直到有框架可依
  • 变更管理流程中,受影响的业务单元在试点阶段从未被纳入,如今持怀疑态度

每个问题都有解法。但它们都不会出现在基准测试排行榜上。

基准测试陷阱

研究到生产的准确率崩溃是有充分记录的。基准测试在针对比较优化的条件下评估模型:静态、结构良好的数据集,清晰的成功标准,单任务评估。而生产环境是动态且对抗性的:输入分布不断变化,来自用户行为的边缘案例无人预料,与拥有未记录限速和认证细节的遗留系统的集成问题。

一个在精心整理的评估集上达到 0.94 F1 的模型,一旦面对完整的生产输入分布,在真实客户数据上的表现会定期跌至 0.07。这种差距不是随机噪声——而是结构性的。试点期间,数据是预先清洗、过滤过的,代表"顺畅路径"。在生产中,数据是不完整、不一致的,由当天上游系统碰巧输出的内容决定。

五类差距导致了大多数规模化失败:

  • 与从未为 AI 作为客户端而设计的系统的集成复杂性
  • 当模型遇到试点分布以外的输入时,批量输出质量不稳定
  • 缺乏监控工具——没有办法检测模型何时开始退化
  • 系统上线后组织所有权不明确
  • 处理生产长尾案例的特定领域训练数据不足

在这一阶段存活下来的组织,都是从第一天起就对生产进行检测的——而不是事后补救。

治理审批链

即使技术上健壮的 AI 系统,也会在组织流程中陷入停滞。一个接触生产数据的新 AI 系统,在中型企业中的典型审批链包括:

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates