跳到主要内容

为什么用户会忽略你花了三个月构建的 AI 功能

· 阅读需 12 分钟
Tian Pan
Software Engineer

你的团队花了三个月时间将 LLM 集成到产品中。模型运行正常,延迟在可接受范围内,演示效果也非常棒。你上线了产品,然后眼睁睁地看着使用率指标停留在 4% 不动了。

这是一个典型的过程。大多数 AI 功能的失败并非发生在模型层面,而是在采用(adoption)层面。其根本原因并非技术问题,而是一系列围绕可发现性(discoverability)、信任和习惯养成而做出(或未做出)的产品决策。理解为什么采用率会失败,以及实际上应该衡量和改变什么,是交付“有用 AI”的团队与仅交付“令人印象深刻的演示”的团队之间的分水岭。

按频率排序的三种失败模式

问问你自己,你的 AI 功能在漏斗的哪个环节出现了断裂。这里有三种截然不同的失败模式,每种模式都需要不同的修复方案。

失败模式 1:用户从未发现该功能的存在。 该功能隐藏在一个用户从未点击过的按钮后面,或者在他们从未打开过的设置面板中,抑或是作为在新手引导(onboarding)过程中仅出现一次且再未露面的工具提示(tooltip)。可发现性不仅是位置问题,也是框架问题。“AI 助手” 毫无意义,而 “帮我起草这封邮件” 则是用户现在就可以采取的具体行动。

失败模式 2:用户尝试了一次该功能便弃之不用。 这属于信任层面的失败。用户运行了一个查询,得到了一个感觉不可靠或完全错误的答案,于是判定验证输出结果的成本超过了亲自动手完成任务的成本。对于许多 AI 功能来说,这是正确的理性计算。如果错误率高到用户必须检查每一个输出,那么你构建的工具只是增加了一个步骤,而不是减少了一个。

失败模式 3:用户使用了该功能但没有再次回访。 该功能产生了一次价值,但未能演变成一种习惯。用户需要重复、可靠的成功体验,行为才能变得自动化。仅仅一次良好的体验是不够的——你需要奖励是一致的,且触发机制是自然的。

每种失败模式在分析数据中都有不同的特征。高激活率但低二次使用率指向失败模式 3。低激活率且激活用户没有明显规律则指向失败模式 1。首次使用后立即出现的高跳出率指向失败模式 2。

部署正确的指标衡量

标准的产品分析并不适用于 AI 功能。页面浏览量和按钮点击次数无法告诉你 AI 是否真的有用。你需要以不同的方式部署埋点。

关键指标分为三类:

交互质量指标:

  • 建议采纳率(suggestion acceptance rate):用户保留、编辑或放弃 AI 建议的百分比。
  • 后续行动率(follow-up rate):用户是否根据 AI 输出采取了行动,还是直接关闭了面板。
  • 重试率(retry rate):用户是否重新输入了提示词(re-prompt),这信号表明第一条回复不令人满意。

下游影响指标:

  • 比较 AI 辅助流与非辅助流的任务完成率。
  • 衡量在有 AI 支持的情况下完成任务所需的时间。
  • 留存率关联性——使用 AI 功能是否能预测 30 天留存率?

采用漏斗指标:

  • 功能激活率(有多少符合条件的用户曾经使用过该功能)。
  • 二次使用率(在那些使用过一次的用户中,有多少人在 7 天内再次使用)。
  • 核心用户占比(每周使用该功能超过 N 次的用户)。

大多数团队只追踪激活率,别无其他。这会产生一种误导性的画面:如果位置显眼,一个功能可能显示出不错的激活率,而由于输出质量不够好,二次使用率仅为 8%。如果没有完整的漏斗分析,你可能会把工程时间浪费在可发现性上,而实际问题却是质量。

在做出任何产品更改之前,先建立一个 4 到 6 周的基准线。按用户群组、获客渠道和角色进行细分——不同类型的用户采用模式差异巨大,汇总数据会掩盖哪些细分市场实际上正在参与其中。

可发现性:不仅是位置问题

本能反应是增加一个显眼的按钮,发起邮件营销,或者增加一个新手引导步骤。这些固然有帮助,但还不够。可发现性有两个维度:用户需要知道该功能的存在,并且他们需要理解该功能对他们的具体作用。

通用的入口点(“试试我们的新 AI!”)的表现一贯不如上下文相关的触发器。在用户正要开始一项 AI 可以提供帮助的任务时准确出现的提示,其转化率远高于侧边栏中的任何按钮。如果你构建了一个可以总结文档的 AI,触发器应该在用户打开长文档时出现,而不是出现在导航栏中。

上下文触发器比静态 UI 需要更多的产品工作,因为它们需要推断用户状态。但其带来的采用率差异足够显著,通常值得投资。从 AI 能提供最清晰、最快价值的两到三个用户任务开始,专门为这些时刻设计触发器。

渐进式披露(progressive disclosure)同样适用于功能传达以及 UI 设计。不要试图在新手引导弹窗中解释 AI 能做的一切。展示它现在能做的一件事,让他们体验到一次成功,并随着他们的深入参与展示更多功能。目标是让能力的揭示与信任的积累相匹配。

信任脚手架:降低验证成本

用户对 AI 的不信任并非源于对 AI 认识论的深思熟虑。他们的不信任是因为曾被“坑”过:他们信任了 AI 的输出,结果输出是错的,导致后续环节出了问题。验证成本的计算非常简单:如果我横竖都要复核每一项 AI 输出,那么 AI 就没有为我节省任何精力。

信任脚手架是指一套旨在降低用户信任 AI 输出的感知成本的设计选择。具体技术包括:

展示工作过程。 如果 AI 总结了一篇文档,请链接到原文出处。如果它生成了代码建议,请用一句话解释它的逻辑。用户更愿意信任那些可以抽样检查的输出,而不是凭空出现的输出。这对于高风险决策尤为重要。

明确置信度。 一个偶尔会说“我对此不太确定”的系统,比一个对所有输出都表现出同等自信的系统更值得信赖。用户会学会校准预期。一个从未表达过不确定性的系统会侵蚀信任,因为用户无法判断什么时候该担心。

从低风险场景开始。 不要首先在用户最关键的工作流程中定位你的 AI 功能。让用户在一次性或易于撤销的任务中接触它。第一印象对信任校准的影响比后续任何体验都大。

让撤销变得简单。 当用户知道可以随时撤销结果时,信任 AI 输出的成本会显著降低。一键撤销是一项关乎信任的功能。

优雅降级。 当 AI 确实无法提供帮助时,请明确告知并提供非 AI 的路径。一个静默失败(产生错误输出却未标记不确定性)的功能比一个大声宣告失败的功能更能迅速摧毁信任。

习惯养成:工程化循环

习惯是在暗示(cue)下发生的行为,无需刻意决策。要让 AI 功能成为习惯,必须满足三个条件:暗示在用户的工作流中定期出现、操作无摩擦,以及奖励足够一致以至于用户的大脑会更新其预期。

暗示是最难把握的部分。如果用户只有在主动寻找时才会遇到你的 AI 功能,它永远不会成为习惯——因为主动寻找本身就需要决策。暗示必须来自产品或用户的环境,而不是来自用户的记忆。

GitHub Copilot 的成功部分归功于其暗示是不可避免的:每次你打开文件并开始打字时,Copilot 已经在提供建议了。操作(接受建议)只需要按一下键。奖励(更快的代码编写速度)是即时的。这种循环在每个会话中运行数十次。这种架构极度有利于习惯的养成。

大多数 AI 功能的循环架构并不理想。暗示需要用户记住该功能的存在,操作包含多个步骤,而奖励则是延迟的或难以归功。如果你是在代码编辑器之外进行构建,则必须更努力地去工程化这个循环。

强化习惯循环的具体技术:

  • 将功能引入用户的现有工作流。 如果用户主要在 Slack 中工作,就将 AI 触发器放在 Slack 中。如果他们在处理邮件,就在那里集成。每一次环境切换都是习惯中断的机会。

  • 让第一次有意义的交互尽可能短。 意图与结果之间的每一个额外步骤都会侵蚀习惯循环。减少提示语、预填上下文,并削减任何发生在“我想要 AI 帮助”和“我得到了有用的东西”之间的用户体验环节。

  • 让改进显而易见。 习惯的强度与奖励的清晰度成正比。如果 AI 为用户节省了 20 分钟但用户没有意识到,习惯就不会养成。使用情况摘要、明确的节省时间估算和对比指标有助于用户认识到他们获得的价值。

  • 谨慎使用通知和连续达标(streaks)。 这些手段对某些产品和人群有效,但会引起其他人的反感。应通过具有明确指标的 A/B 测试来验证,而不是假设它们能提升参与度。

运行位置与框架实验

一旦你拥有了基础的埋点分析,位置与框架实验就是你能利用的最高杠杆。同一个功能放在不同的位置,或者使用不同的文案,其激活率可能会有天壤之别。

一个务实的实验序列:

  1. 框架测试。 准备三到五种不同的功能描述,并衡量哪一种能驱动首次使用。宽泛的描述(如“AI 助手”)几乎总是输给具体的描述(如“将此内容总结为 3 个要点”)。描述用户将获得什么的行动导向框架,优于描述功能为何存在的利益导向框架。

  2. 位置测试。 测试在用户主要工作流中的内联入口、作为上下文触发器以及在专门页面上的效果。上下文触发器通常会胜出,但其影响程度因产品而异。

  3. 时机测试。 在用户会话的不同时间点放置相同的触发器,其转化率也不同。在会话初期,用户处于熟悉环境的阶段;而在会话中期,当他们正在积极工作时,上下文触发器更容易被接受。

  4. 受众细分测试。 新用户和资深用户对 AI 功能引入的反应不同。资深用户通常希望立即获得能力;新用户则首先需要信任脚手架。考虑为不同的群体设计不同的引入路径。

按顺序运行这些实验,并衡量其对整个采用漏斗的影响,而不仅仅是即时的激活事件。如果框架的改变让激活率翻倍但让二次使用率减半,那么这可能并不是一次胜利。

什么是良好的采用表现

当一个 AI 功能奏效时,其采用漏斗大致如下:在符合条件的第一周内,有显著比例的符合条件的用户完成激活;7 天内的二次使用率超过 40%;并且该功能出现在留存模型中,作为长期参与度的预测指标。

GitHub Copilot 作为经过最严谨研究的 AI 产品,展示了可能达到的高度:90% 的财富 100 强企业采用了它,而在已激活的用户中,测得的生产力提升非常显著,以至于开发者们会积极拥护这款工具。但 Copilot 拥有结构性优势 —— 紧密的工作流集成、即时且可衡量的价值,以及一个本就倾向于采用工具的用户群体(开发者)。

对于没有这些结构性优势的功能,成功看起来则有所不同。现实的目标在很大程度上取决于你所属的领域,但总的来说:符合条件用户的激活率低于 20% 通常表明存在可发现性或信任问题,这在进行任何其他投入之前都值得优先解决。二次使用率低于 30% 则表明存在质量或习惯循环问题。

成功的 AI 功能发布的共同点是,团队将“采用率”视为一个工程问题 —— 而非市场部门的工作,也不是功能上线后就会自然而然发生的事情。他们监测正确的指标,识别具体的失败模式,并针对控制采用率的产品决策进行迭代。这就是工作的核心所在。

References:Let's stay in touch and Follow me for more thoughts and updates