70% 可靠性恐怖谷:AI 功能丧失用户信任的深渊
一个故障率高达 70% 的功能是无害的。用户在一周内就会发现他们必须验证每一条输出,将系统视为一个不可靠的助手,并做出相应调整。而一个成功率达到 70% 的功能则更糟糕。它正确的频率足以让用户停止验证,而错误的频率又足以让失败变得集中、显眼且具有针对性。用户的心理模型会崩塌为“我不知道什么时候该信任它” —— 这种产品体验从根本上比“我知道不要信任它”更糟糕。
这就是 70% 的恐怖谷,也是过去两年中构建的大多数 AI 功能所处的位置。团队衡量综合准确率,看着数值超过某个“足够好”的阈值,然后发布。实际的用户体验并不随着这个数字单调提升。在大约 60% 到 85% 的准确率之间,产品随着准确率的提高反而变得更差,因为用户因疏于检查而导致的错误成本,超过了他们无需验证正确答案所带来的价值。
那些在不考虑可预测性问题的情况下发布 70% 准确率产品的团队,发布的并不是一个 95% 产品的拙劣版本。他们发布的是一个完全不同的产品:一个主要的失效模式是隐形的产品。
