跳到主要内容

AI 功能 PMF 信号:为什么你的指标在欺骗你

· 阅读需 10 分钟
Tian Pan
Software Engineer

当你的 AI 功能上线,各项指标开始亮眼——DAU 飙升、NPS 攀升、点赞反馈涌入——你可能正在目睹真正的产品市场契合度。也可能只是两幕故事的第一幕,而第二幕以一个没人预料到的留存悬崖收场。

问题在于,这些信号对概率性 AI 功能而言在结构上就是失效的。它们是为确定性软件设计的——在那里,"已激活"有明确含义,五星好评能预测未来使用,新鲜感在数天内消退,而不是掩盖一个六个月后才显现的流失浪潮。AI 功能的行为模式截然不同,而标准 PMF 工具包是针对错误输入校准的。

接下来,我将分析传统指标为何会产生误导、哪些行为模式能真正区分真实 PMF 与新鲜感效应,以及如何构建队列分析以便在悬崖到来之前识别出差异。

为什么传统信号对 AI 功能失效

NPS 将新鲜感与满意度混为一谈。 新 AI 功能上线时,用户充满好奇,主动探索,互动感觉出乎意料地有价值——部分是因为确实如此,部分是因为任何新奇事物在基准调整之前都会被感知为良好。在上线后两到六周收集的 NPS 捕捉到了这种新鲜感溢价,并将其作为产品质量信号嵌入你的仪表板。到第四个月,新鲜感溢价已经消散,你在将当前数据与虚高的历史分数对比时,功能看起来像是在衰退。但它并没有衰退——它从来就没有达到你以为的那个水平。

点赞评分反映的是礼貌性表态,而非真实偏好。 人们给予好评与实际使用之间存在有据可查的差距。用户给纪录片打五星,却在看真人秀。对于 AI 输出,用户会对一个能力尚可、内容完整的回答竖起大拇指,即使他们不够信任到在无人监督的情况下直接使用,即使他们在使用前进行了修改,即使他们再也不会让这个功能做同类任务。二元评分捕捉的是当下情绪,与功能是否在工作流中赢得一席之地毫无关系。

激活率衡量的是用户是否到达,而非是否留下。 高激活率叠加低 D30 留存率,是新鲜感的特征,而非 PMF。用户尝试 AI 功能,是因为它有趣——就像他们看产品演示或点击科技新闻一样。激活事件告诉你的是营销奏效了,或者说好奇心是普遍的,或者说引导流程没有立刻把人赶走。它无法告诉你这个功能是否解决了值得反复解决的问题。

这三个指标的共同问题是:它们将第一印象等同于持久关系。对于传统软件功能——导出为 CSV、多因素认证、已保存的筛选器——这种等同基本无害,因为没有新鲜感溢价会消退。AI 功能的新鲜感溢价幅度大、持续时间短,而这恰恰是团队最积极衡量 PMF 的阶段。

真实案例中的新鲜感悬崖

这一模式在主要 AI 模型和产品的留存数据中清晰可见。Andreessen Horowitz 对 AI 消费者留存曲线的分析揭示了一个一致现象:早期上线队列表现相对稳健——顶级产品的 D30 留存率约为 35-40%——而两三个月后加入的队列流失率急剧上升。到第五或第六个月,后期队列几乎完全流失,即使早期队列依然保持着合理的留存率。

这并不是因为产品变差了。而是因为早期队列包含了真正找到契合点的用户——他们的使用场景与模型的优势对齐,他们将其整合进工作流,他们对它产生了真实留存所需的那种依赖。后期队列到来时,这些高契合度使用场景已经被占据。他们尝试了一番,发现契合度较弱,然后离开了。

如果你只衡量前两个队列的留存率,你会看到暗示 PMF 的早期数字。如果你跨队列衡量,追踪连续波次新用户的留存演变,你就能看出是在积累真正粘性用户,还是只是在暂时激发新鲜感。

会话深度信号与此相关。Perplexity 的平均会话时长较长——约 23 分钟——因为它被用于高摩擦的研究任务,用户意图强烈,主动投入工作流。两到三分钟的浅层会话表明的是好奇心和浏览行为,而非任务完成与工作流整合。激活率无法区分这两者;按使用场景细分的会话深度可以。

真正重要的三个信号

按队列分解的 D30+ 留存率。 不是整体 D30,而是按上线队列、主要使用场景、最好还按获取周细分的 D30。如果第三个队列留存率为 40%,第七个队列只有 8%,说明功能存在使用场景饱和问题,早期数字不具有预测性。如果第七个队列接近第三个队列,说明你在积累真正庞大的粘性用户群,信号是真实的。

随时间变化的覆盖率。 对于生成输出供用户使用的 AI 功能,追踪用户修改、纠正或忽略输出(而非直接接受)的频率。上线初期的高覆盖率是正常的——用户在校准信任、探索边界案例、了解模型的失效模式。关键信号在于趋势:如果覆盖率在前 60 到 90 天内下降,说明用户在建立信任并以更深的深度将功能整合进工作流。初始校准期后覆盖率持平或上升,则表明模型质量未能跨越用户委托所需的门槛。

意图解决率——用户的底层目标是否真正实现——是将这些联系起来的核心指标。意图解决率超过 70% 的产品,其 D30 留存率显著高于低于 55% 的产品。差距不是因为更好的产品在某种抽象意义上能留住用户更久;而是因为意图被解决意味着用户在本次会话中获得了价值,并会回来获取下一次会话的价值。

任务多样性扩展。 真正 PMF 的用户不只是反复回到同一使用场景——他们会发现相邻的使用场景。一个用 AI 写作工具起草邮件,后来开始用它做会议记录,再后来用于撰写提案大纲的用户,正在展示他们找到了足够深度的工作流契合,能够向外延伸。这种任务多样性扩展是留存的领先指标:在第三到六周内扩展任务类型的用户,其 D30 留存率显著优于只停留在单一任务类型的用户。

新鲜感用户不会扩展任务类型。他们尝试核心使用场景,形成印象,然后基于这个印象选择留下或离开。PMF 用户在一个情境中发现功能价值后,会自然而然地问它还能做什么——因为底层价值主张产生了广泛共鸣,而不仅仅适用于最初吸引他们的特定演示场景。

如何为 AI 功能构建队列分析

标准队列分析以队列日期为主要分割轴。对于 AI 功能,这是不够的。你需要额外两个维度。

使用场景队列。 按用户在首次有意义参与时的主要使用场景进行分组,而非按获取日期。首次将 AI 功能用于数据分析的用户,与首次用于内容生成的用户,处于根本不同的情境——不同的质量门槛、不同的覆盖率预期、不同的任务扩展轨迹。将他们按周聚合进单一队列,会掩盖哪些使用场景具有真实 PMF、哪些是新鲜感驱动。

功能深度队列。 追踪每个用户相关工作流中有多少比例由该功能承担。一个处理用户 90% 文档审查工作的功能,与一个只处理十步流程中某一步的功能,在结构上截然不同。深度工作流整合预测留存;浅层整合更容易被替代方案取代,或在新鲜感消退时被放弃。Amplitude 和 PostHog 等工具支持构建这些队列所需的行为细分,但定义"工作流深度"对你的特定使用场景意味着什么,这项分析工作需要你自己来完成。

目标是找到哪怕一个狭窄的使用场景,其中 D30 留存率高、覆盖率在下降、任务多样性在扩展。这比所有使用场景的平均留存率都平平无奇更有价值。在细分市场中有真实 PMF 的功能可以扩展;到处都只有平均留存率的功能,很可能在整体上是新鲜感驱动的,随着新鲜感消退会持续下滑。

PMF 是持续过程,而非里程碑

传统 PMF 通常被框架为一个门槛事件——你要么有它,要么没有,一旦拥有就转向规模化。对于 AI 功能,这种框架会失效,因为模型质量每月都在变化,用户期望会根据接触到更好模型的经历持续校准,而"已解决"任务的标准也在不断移动。

六个月前在某个模型上具有真实 PMF 的功能,可能在用户基于接触外部更优模型而调整内部基准后失去 PMF。覆盖率可能重新攀升,任务多样性扩展可能停滞,D30 队列留存率可能开始在用户期望转变前后加入的队列之间出现分化。

这意味着行为信号不是一次性检查——而是持续的监测要求。在前 90 天做好监测后就转向其他优先事项的团队,会错过在接下来两个季度侵蚀其 PMF 的模型-期望漂移。区分真实 PMF 与新鲜感的信号,与区分持续 PMF 与衰退 PMF 的信号相同,都需要同等的持续监测。

做好这件事的团队,是那些停止将 AI 功能 PMF 视为上线里程碑、开始将留存信号分析作为产品运营健康监测一部分的团队——与延迟仪表板或错误率同等基础。这些指标是行为性的、按队列分解的、设计上具有滞后性。这正是它们比点赞评分和激活率峰值更可靠的原因。

References:Let's stay in touch and Follow me for more thoughts and updates