跳到主要内容

4 篇博文 含有标签「retention」

查看所有标签

你的评估集里只有你已经解决的问题

· 阅读需 10 分钟
Tian Pan
Software Engineer

在过去一个季度,你的评估分数从 0.81 上升到了 0.87。团队上线了一个路由器 (router),在困难意图上更换了更强大的模型,微调了系统提示词 (system prompt),并从“处理时间超过一天的工单”中提取并添加了 40 个新的测试用例。仪表盘显示系统变得更好了。NPS 持平。活跃用户数下降了 2%。

有一个简洁的故事可以解释这两个数字,但你可能并不想听:你的评估集只包含你已经解决的问题。那些失败得如此彻底,以至于用户从未提交工单、从未回来、甚至从未出现在你 grep 的任何日志中的查询 —— 它们不在你的测试套件中。它们不在任何人的套件中。评估分数的上升不仅与你在可见的事物上做得更好相一致,也与你在可见的事物上做得更好、但在不可见的事物上依然糟糕透顶相一致。

聚合指标隐藏的首次用户断崖

· 阅读需 10 分钟
Tian Pan
Software Engineer

你的 AI 功能看起来很健康。周活跃用户持平或微涨,满意度评分为正,仪表板告诉你应该多做这类功能。PM 在下一轮规划会议上引用了这个指标,工程主管点头同意,路线图上又多了一个相邻功能。

然后有人按用户使用时长对图表进行分段,画面瞬间反转。老用户——那些在功能上线时就已存在的用户——每天都在深度使用它。首次用户在两次交互内就跳出了。那条"持平"的曲线其实是两个队列在相互抵消:一条向上倾斜的幂律曲线,和一条向下倾斜的流失曲线,加总成一个谎言。

你的提示词专家只有 14 个月的半衰期

· 阅读需 11 分钟
Tian Pan
Software Engineer

每一家在生产环境中上线 AI 功能的公司,都有那么一两个无法承受其离职损失的工程师,而大多数公司直到收到辞职邮件时,才意识到这些工程师是谁。

那个关键人物很少是办公室里嗓门最大的。他们是那个记得在第二季度的问题升级后,通过三行系统提示词(system-prompt)修改修好了客服摘要语气的人;是那个在模型供应商悄悄更改默认采样(sampling)的那周,在评估套件(eval suite)中添加了六个案例的人;也是那个在上次有人“清理”评分细则(rubric)时,发现评判标准校准(judge calibration)发生偏移的人。这些内容都没有被记录在继任者能找到的地方。它只存在于一个人的脑子里,而这个人的脑子大约每两周就会收到一次猎头发来的加薪 25% 的消息。

AI 功能 PMF 信号:为什么你的指标在欺骗你

· 阅读需 10 分钟
Tian Pan
Software Engineer

当你的 AI 功能上线,各项指标开始亮眼——DAU 飙升、NPS 攀升、点赞反馈涌入——你可能正在目睹真正的产品市场契合度。也可能只是两幕故事的第一幕,而第二幕以一个没人预料到的留存悬崖收场。

问题在于,这些信号对概率性 AI 功能而言在结构上就是失效的。它们是为确定性软件设计的——在那里,"已激活"有明确含义,五星好评能预测未来使用,新鲜感在数天内消退,而不是掩盖一个六个月后才显现的流失浪潮。AI 功能的行为模式截然不同,而标准 PMF 工具包是针对错误输入校准的。