AI 功能 PMF 信号：为什么你的指标在欺骗你

2026年5月7日 · 阅读需 10 分钟

Software Engineer

当你的 AI 功能上线，各项指标开始亮眼——DAU 飙升、NPS 攀升、点赞反馈涌入——你可能正在目睹真正的产品市场契合度。也可能只是两幕故事的第一幕，而第二幕以一个没人预料到的留存悬崖收场。

问题在于，这些信号对概率性 AI 功能而言在结构上就是失效的。它们是为确定性软件设计的——在那里，"已激活"有明确含义，五星好评能预测未来使用，新鲜感在数天内消退，而不是掩盖一个六个月后才显现的流失浪潮。AI 功能的行为模式截然不同，而标准 PMF 工具包是针对错误输入校准的。

接下来，我将分析传统指标为何会产生误导、哪些行为模式能真正区分真实 PMF 与新鲜感效应，以及如何构建队列分析以便在悬崖到来之前识别出差异。

为什么传统信号对 AI 功能失效

NPS 将新鲜感与满意度混为一谈。 新 AI 功能上线时，用户充满好奇，主动探索，互动感觉出乎意料地有价值——部分是因为确实如此，部分是因为任何新奇事物在基准调整之前都会被感知为良好。在上线后两到六周收集的 NPS 捕捉到了这种新鲜感溢价，并将其作为产品质量信号嵌入你的仪表板。到第四个月，新鲜感溢价已经消散，你在将当前数据与虚高的历史分数对比时，功能看起来像是在衰退。但它并没有衰退——它从来就没有达到你以为的那个水平。

点赞评分反映的是礼貌性表态，而非真实偏好。 人们给予好评与实际使用之间存在有据可查的差距。用户给纪录片打五星，却在看真人秀。对于 AI 输出，用户会对一个能力尚可、内容完整的回答竖起大拇指，即使他们不够信任到在无人监督的情况下直接使用，即使他们在使用前进行了修改，即使他们再也不会让这个功能做同类任务。二元评分捕捉的是当下情绪，与功能是否在工作流中赢得一席之地毫无关系。

激活率衡量的是用户是否到达，而非是否留下。 高激活率叠加低 D30 留存率，是新鲜感的特征，而非 PMF。用户尝试 AI 功能，是因为它有趣——就像他们看产品演示或点击科技新闻一样。激活事件告诉你的是营销奏效了，或者说好奇心是普遍的，或者说引导流程没有立刻把人赶走。它无法告诉你这个功能是否解决了值得反复解决的问题。

这三个指标的共同问题是：它们将第一印象等同于持久关系。对于传统软件功能——导出为 CSV、多因素认证、已保存的筛选器——这种等同基本无害，因为没有新鲜感溢价会消退。AI 功能的新鲜感溢价幅度大、持续时间短，而这恰恰是团队最积极衡量 PMF 的阶段。

真实案例中的新鲜感悬崖

这一模式在主要 AI 模型和产品的留存数据中清晰可见。Andreessen Horowitz 对 AI 消费者留存曲线的分析揭示了一个一致现象：早期上线队列表现相对稳健——顶级产品的 D30 留存率约为 35-40%——而两三个月后加入的队列流失率急剧上升。到第五或第六个月，后期队列几乎完全流失，即使早期队列依然保持着合理的留存率。

这并不是因为产品变差了。而是因为早期队列包含了真正找到契合点的用户——他们的使用场景与模型的优势对齐，他们将其整合进工作流，他们对它产生了真实留存所需的那种依赖。后期队列到来时，这些高契合度使用场景已经被占据。他们尝试了一番，发现契合度较弱，然后离开了。

如果你只衡量前两个队列的留存率，你会看到暗示 PMF 的早期数字。如果你跨队列衡量，追踪连续波次新用户的留存演变，你就能看出是在积累真正粘性用户，还是只是在暂时激发新鲜感。

会话深度信号与此相关。Perplexity 的平均会话时长较长——约 23 分钟——因为它被用于高摩擦的研究任务，用户意图强烈，主动投入工作流。两到三分钟的浅层会话表明的是好奇心和浏览行为，而非任务完成与工作流整合。激活率无法区分这两者；按使用场景细分的会话深度可以。

真正重要的三个信号

按队列分解的 D30+ 留存率。 不是整体 D30，而是按上线队列、主要使用场景、最好还按获取周细分的 D30。如果第三个队列留存率为 40%，第七个队列只有 8%，说明功能存在使用场景饱和问题，早期数字不具有预测性。如果第七个队列接近第三个队列，说明你在积累真正庞大的粘性用户群，信号是真实的。

随时间变化的覆盖率。 对于生成输出供用户使用的 AI 功能，追踪用户修改、纠正或忽略输出（而非直接接受）的频率。上线初期的高覆盖率是正常的——用户在校准信任、探索边界案例、了解模型的失效模式。关键信号在于趋势：如果覆盖率在前 60 到 90 天内下降，说明用户在建立信任并以更深的深度将功能整合进工作流。初始校准期后覆盖率持平或上升，则表明模型质量未能跨越用户委托所需的门槛。

意图解决率——用户的底层目标是否真正实现——是将这些联系起来的核心指标。意图解决率超过 70% 的产品，其 D30 留存率显著高于低于 55% 的产品。差距不是因为更好的产品在某种抽象意义上能留住用户更久；而是因为意图被解决意味着用户在本次会话中获得了价值，并会回来获取下一次会话的价值。

任务多样性扩展。 真正 PMF 的用户不只是反复回到同一使用场景——他们会发现相邻的使用场景。一个用 AI 写作工具起草邮件，后来开始用它做会议记录，再后来用于撰写提案大纲的用户，正在展示他们找到了足够深度的工作流契合，能够向外延伸。这种任务多样性扩展是留存的领先指标：在第三到六周内扩展任务类型的用户，其 D30 留存率显著优于只停留在单一任务类型的用户。

新鲜感用户不会扩展任务类型。他们尝试核心使用场景，形成印象，然后基于这个印象选择留下或离开。PMF 用户在一个情境中发现功能价值后，会自然而然地问它还能做什么——因为底层价值主张产生了广泛共鸣，而不仅仅适用于最初吸引他们的特定演示场景。

如何为 AI 功能构建队列分析

标准队列分析以队列日期为主要分割轴。对于 AI 功能，这是不够的。你需要额外两个维度。

使用场景队列。 按用户在首次有意义参与时的主要使用场景进行分组，而非按获取日期。首次将 AI 功能用于数据分析的用户，与首次用于内容生成的用户，处于根本不同的情境——不同的质量门槛、不同的覆盖率预期、不同的任务扩展轨迹。将他们按周聚合进单一队列，会掩盖哪些使用场景具有真实 PMF、哪些是新鲜感驱动。

功能深度队列。 追踪每个用户相关工作流中有多少比例由该功能承担。一个处理用户 90% 文档审查工作的功能，与一个只处理十步流程中某一步的功能，在结构上截然不同。深度工作流整合预测留存；浅层整合更容易被替代方案取代，或在新鲜感消退时被放弃。Amplitude 和 PostHog 等工具支持构建这些队列所需的行为细分，但定义"工作流深度"对你的特定使用场景意味着什么，这项分析工作需要你自己来完成。

目标是找到哪怕一个狭窄的使用场景，其中 D30 留存率高、覆盖率在下降、任务多样性在扩展。这比所有使用场景的平均留存率都平平无奇更有价值。在细分市场中有真实 PMF 的功能可以扩展；到处都只有平均留存率的功能，很可能在整体上是新鲜感驱动的，随着新鲜感消退会持续下滑。

PMF 是持续过程，而非里程碑

传统 PMF 通常被框架为一个门槛事件——你要么有它，要么没有，一旦拥有就转向规模化。对于 AI 功能，这种框架会失效，因为模型质量每月都在变化，用户期望会根据接触到更好模型的经历持续校准，而"已解决"任务的标准也在不断移动。

六个月前在某个模型上具有真实 PMF 的功能，可能在用户基于接触外部更优模型而调整内部基准后失去 PMF。覆盖率可能重新攀升，任务多样性扩展可能停滞，D30 队列留存率可能开始在用户期望转变前后加入的队列之间出现分化。

这意味着行为信号不是一次性检查——而是持续的监测要求。在前 90 天做好监测后就转向其他优先事项的团队，会错过在接下来两个季度侵蚀其 PMF 的模型-期望漂移。区分真实 PMF 与新鲜感的信号，与区分持续 PMF 与衰退 PMF 的信号相同，都需要同等的持续监测。

做好这件事的团队，是那些停止将 AI 功能 PMF 视为上线里程碑、开始将留存信号分析作为产品运营健康监测一部分的团队——与延迟仪表板或错误率同等基础。这些指标是行为性的、按队列分解的、设计上具有滞后性。这正是它们比点赞评分和激活率峰值更可靠的原因。

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

AI 功能 PMF 信号：为什么你的指标在欺骗你

为什么传统信号对 AI 功能失效

真实案例中的新鲜感悬崖

真正重要的三个信号

如何为 AI 功能构建队列分析

PMF 是持续过程，而非里程碑

Recommended Reading

关于 Tian Pan

为什么传统信号对 AI 功能失效​

真实案例中的新鲜感悬崖​

真正重要的三个信号​

如何为 AI 功能构建队列分析​

PMF 是持续过程，而非里程碑​

Recommended Reading

关于 Tian Pan

为什么传统信号对 AI 功能失效

真实案例中的新鲜感悬崖

真正重要的三个信号

如何为 AI 功能构建队列分析

PMF 是持续过程，而非里程碑