跳到主要内容

第一个 AI 功能难题:为什么你首先交付的内容决定了用户接下来的接受度

· 阅读需 11 分钟
Tian Pan
Software Engineer

大多数团队会先发布他们最大胆的 AI 功能。那个功能通常是他们研发了六个月、演示效果极佳、且让领导层倍感兴奋的作品。但它在生产环境中失败了——算不上灾难性的,但足以让用户感到不安——于是,随之而来的每一个 AI 功能都会继承这种怀疑。即使团队后来修复了最初的问题,接下来的整整一年里,他们依然会纳闷为什么采用率始终停滞不前。

"https://opengraph-image.blockeden.xyz/api/og-tianpan-co?title=%E7%AC%AC%E4%B8%80%E4%B8%AA%20AI%20%E5%8A%9F%E8%83%BD%E7%9A%84%E9%97%AE%E9%A2%98%EF%BC%9A%E4%B8%BA%E4%BB%80%E4%B9%88%E4%BD%A0%E9%A6%96%E5%8F%91%E7%9A%84%E4%BA%A7%E5%93%81%E5%86%B3%E5%AE%9A%E4%BA%86%E7%94%A8%E6%88%B7%E6%8E%A5%E4%B8%8B%E6%9D%A5%E8%83%BD%E6%8E%A5%E5%8F%97%E4%BB%80%E4%B9%88"

这就是“第一个 AI 功能”的问题。你首先发布的内容建立了一个先例,这种影响在技术问题解决很久之后依然存在。用户对 AI 的信任建立在第一次失败之上,而非第一次成功。你发布功能的顺序比任何单一功能的质量都更重要。

为什么 AI 信任与普通软件信任不同

对于传统软件,用户会逐渐建立心理模型。他们会在数周内学习使用工具,因为能看到产品在进步而原谅早期的 Bug,并通过反复接触来校准预期。软件信任是一个渐进的过程。

而 AI 信任则是一道悬崖。

针对 AI 出错后用户行为的研究一致表明,存在一种被称为“算法反感”(algorithmic aversion)的现象:在经历一次显而易见的失败后,用户会转向完全不信任 AI——即便向他们展示客观证据证明该系统优于人类方案。这并非信心的逐渐下滑,而是一种相位转变(phase shift)。

其机制是不对称归因。当人类犯错时,用户会归因于情境因素:他们累了、太匆忙、或者信息不足。而当 AI 犯错时,用户会归因于算法本身的系统性缺陷。人类的一次错误是“状态不好”,而 AI 的一次错误则是“这玩意儿根本不行”的证据。

这种归因不对称性给那些习惯用错误率思考问题的产品团队带来了麻烦。一个准确率达到 92% 的系统听起来很了不起,直到你意识到用户并不按百分比思考。他们按“事件”思考。那 8% 的错误并非统计属性——而是“AI 搞砸的那次”,这成了用户向他人描述你产品时讲述的故事。

对完美的预期:为什么这是你的问题,而不是他们的问题

用户对 AI 的要求达到了他们对人类从未有过的标准。在金融咨询、医疗诊断、内容推荐等多个领域的研究表明,用户期望 AI 是“接近完美或完美”的,甚至要优于人类的表现。这种期望并非不理性,它是 AI 营销方式以及它在受控演示中表现出色的产物。

这种期望差距使得第一印象的代价极其高昂。当用户带着完美的预期却遇到失败时,这次失败不仅仅是让他们更新了对系统准确性的评估,它还触发了一种重新解释:也许整个前提就是错的。针对金融咨询系统的研究发现,单一错误导致的信任下降效应量 η² = 0.141——这在通常效应量较小的人机交互研究中是非常显著的。

讽刺的是,你读到这里可能会想:“我们只要预先设定好预期就行了。”设定预期确实有帮助,但它无法跨功能传递。如果用户知道你的 AI 编程助手在某个模块中偶尔会出错,他们并不会自动校准对你上季度发布的 AI 邮件分类功能的预期。每一个功能都是从基础假设开始的:AI 应该是准确的。

一个功能如何污染后续所有功能的泉水

这是产品团队经常低估的部分:AI 信任并非仅限于单个功能。它是以公司为范围的,有时是以整个产品为范围的。

一个拥有生产权限、并在真实用户数据上执行了 DELETE 操作的数据库智能体(agent),不仅会让用户不再信任有数据库访问权限的智能体。它会让用户不再信任该产品中的所有智能体功能。一个在退货政策上给出错误信息的聊天机器人,不会让用户只是避开聊天机器人——它会让用户对公司声称 AI 能做的所有事情产生怀疑。

这就是信任资本(trust capital):一种累积的信誉,让你可以在不耗尽用户耐心的情况下引入新的 AI 功能。拥有高信任资本的公司——通过在低风险场景中可靠运行的 AI 功能赢得的——可以发布新的 AI 能力,并让用户以审慎的好奇心而非积极的敌意去接触它们。而那些以高调失败开局的公司则处于亏损状态:他们在随后的每一次发布中都在为此买单。

统计数据说明了问题。调查一致显示,60–70% 的人积极使用 AI 工具,但愿意信任它们的人不到一半。采用率跑在了信任前面。在金融、医疗、法律等高风险决策领域,这种差距最为明显——但当用户已经对某家公司的 AI 有过糟糕体验时,这种不信任也会蔓延到低风险场景。

成功的模式:始终先从低风险开始

观察那些在没有引发反弹的情况下积累了大量用户信任的 AI 功能,你会发现它们都有一个共同的结构属性:它们显然是可选的,它们处理的是失败不可见或后果较低的任务,并且它们是在尝试任何更高风险的事情之前引入的。

Gmail 的 Smart Compose 是一个典型范例。该功能最初是为日常邮件回复提供简短的补全建议。如果建议错了,你就忽略它。什么都不会发生,没人会受到伤害。在每个失败对除了正在审查输出的用户之外的所有人都是不可见的背景下,该功能做了一些真正有用的事情。当它扩展到更长的建议和更复杂的草稿时,它已经建立了几年的正面关联。

Netflix 的推荐机制也遵循同样的原则。如果你收到了一个糟糕的推荐,你直接不点击它就行。失败是无声的,成本为零,而成功的案例则是你喜欢的一部电影。系统随着时间的推移可见地改进,这给用户一种协作关系的感觉,而不是一次性的评判。

将这些与备受关注的失败案例进行对比。一个无法处理复杂案例的 AI 驱动客服聊天机器人不仅仅会让用户感到沮丧——它本身就会变成一个负面新闻。一个在劳动法实践方面提供法律错误的政府聊天机器人,会让人产生 AI 在任何官方事务上都不可信的印象。加拿大航空(Air Canada)聊天机器人的案例中,错误的抚恤票价信息导致了法律诉讼,这让人们开始审视他们收到的每一份由 AI 驱动的政策声明。

区别不在于 Gmail 和 Netflix 是更聪明的公司,而在于它们安排了发布顺序,使得最初的几次交互发生在它们可以保证高准确率,且失败可以被无后果吸收的环境中。

构建信任排序策略

实际的启示是,你的 AI 路线图应该围绕信任积累来组织,而不仅仅是能力开发。

从你能找到的最高准确率/最低风险的组合开始。 样板代码生成、文档草拟、常见问题解答(FAQ)摘要、根据先前数据预填表单——在这些类别中,准确率是可以实现的,而且错误在造成伤害之前就会被发现。在这些场景下拥有十次良好体验的用户,对随后更高风险功能中的错误具有显著更高的容忍度。

在拥有可消耗的信任资本之前,不要发布高风险功能。 如果你计划推出一个进行招聘推荐、贷款决策或医疗分诊的 AI,请先问问用户之前信任你的 AI 做了什么。如果答案是“还没做过任何事”,那么与准确率数据预测的情况相比,这个高风险功能的发布将会失败得异常惨重。信任不是理所当然的——它是通过在较小的尝试中证明可靠性而积累起来的。

当错误发生时,让它们可见且可解释,而不是可辩解。 关于信任修复的研究一致表明,解释 为什么 会发生错误以及 改变了什么 来防止错误,比保持沉默或防御性沟通更能加速恢复。用户对错误并不生气——他们对不透明感到生气。一个说“我对此没有把握,这是我知道的和不知道的”系统,在失败中保留的信任比一个表现出虚假自信然后出错的系统更多。

保持人工升级路径清晰。 “人在回路”(Human-in-the-loop)不仅仅是 AI 失败时的退路——它是一个信任信号。当用户知道他们可以联系到人工时,他们会对 AI 表现出更多的宽容。当他们感到被困在一个无法升级的系统中时,任何失败都会变成一场危机。几个失败的企业 AI 部署案例都有一个共同点:AI 被定位为人类判断的替代品,而没有维持可靠的人工升级路径,这使得用户在出问题时无处求助。

错误时机效应

信任研究中的一个发现没有得到产品团队足够的重视:早期错误比后期错误具有更不成比例的破坏性。

当一个系统在有机会证明其可靠性之前就失败时,用户会将失败解释为系统总体质量的证据。当同样的失败发生在长期的成功记录之后时,用户更有可能将其归因于边缘案例(edge case)或环境因素。后期错误对信任的损害较轻,且恢复速度更快。

这给你提供了一个具体的设计约束:在任何 AI 功能发布的早期阶段,优先处理你最有信心的案例,并降低边缘案例的优先级,即使这些边缘案例在技术上是受支持的。前 90 天的目标不是展示广度,而是建立可靠性记录。一旦用户有了足够的正面历史来吸收偶尔的失败,而不更新他们对系统的全局模型,广度就可以扩展。

这对你的路线图意味着什么

如果你的路线图是根据业务影响(即 ROI 最高优先)来安排 AI 功能的顺序,那么你优化的变量就选错了。你交付的第一个功能不仅仅需要提供价值,它还需要积累信任,以便后续的每一个功能都能使用这些信任。

低风险、高准确性的功能并不是乏味的功能。正是这些功能让后续的每一个功能都能发挥作用。那些将信任视为基础设施——一种在需要之前就先行构建的东西——的团队,其表现始终优于那些将信任视为构建好功能后的副作用的团队。

你交付的第一个 AI 功能是对“用户下一步会允许你做什么”的投资。请务必以此态度对待它。

References:Let's stay in touch and Follow me for more thoughts and updates