4 篇博文含有标签「retention」

你的评估集里只有你已经解决的问题

2026年5月22日 · 阅读需 10 分钟

Software Engineer

在过去一个季度，你的评估分数从 0.81 上升到了 0.87。团队上线了一个路由器 (router)，在困难意图上更换了更强大的模型，微调了系统提示词 (system prompt)，并从“处理时间超过一天的工单”中提取并添加了 40 个新的测试用例。仪表盘显示系统变得更好了。NPS 持平。活跃用户数下降了 2%。

有一个简洁的故事可以解释这两个数字，但你可能并不想听：你的评估集只包含你已经解决的问题。那些失败得如此彻底，以至于用户从未提交工单、从未回来、甚至从未出现在你 grep 的任何日志中的查询 —— 它们不在你的测试套件中。它们不在任何人的套件中。评估分数的上升不仅与你在可见的事物上做得更好相一致，也与你在可见的事物上做得更好、但在不可见的事物上依然糟糕透顶相一致。

聚合指标隐藏的首次用户断崖

2026年5月22日 · 阅读需 10 分钟

Tian Pan

Software Engineer

你的 AI 功能看起来很健康。周活跃用户持平或微涨,满意度评分为正,仪表板告诉你应该多做这类功能。PM 在下一轮规划会议上引用了这个指标,工程主管点头同意,路线图上又多了一个相邻功能。

然后有人按用户使用时长对图表进行分段,画面瞬间反转。老用户——那些在功能上线时就已存在的用户——每天都在深度使用它。首次用户在两次交互内就跳出了。那条"持平"的曲线其实是两个队列在相互抵消:一条向上倾斜的幂律曲线,和一条向下倾斜的流失曲线,加总成一个谎言。

你的提示词专家只有 14 个月的半衰期

2026年5月16日 · 阅读需 11 分钟

Tian Pan

Software Engineer

每一家在生产环境中上线 AI 功能的公司，都有那么一两个无法承受其离职损失的工程师，而大多数公司直到收到辞职邮件时，才意识到这些工程师是谁。

那个关键人物很少是办公室里嗓门最大的。他们是那个记得在第二季度的问题升级后，通过三行系统提示词（system-prompt）修改修好了客服摘要语气的人；是那个在模型供应商悄悄更改默认采样（sampling）的那周，在评估套件（eval suite）中添加了六个案例的人；也是那个在上次有人“清理”评分细则（rubric）时，发现评判标准校准（judge calibration）发生偏移的人。这些内容都没有被记录在继任者能找到的地方。它只存在于一个人的脑子里，而这个人的脑子大约每两周就会收到一次猎头发来的加薪 25% 的消息。

AI 功能 PMF 信号：为什么你的指标在欺骗你

2026年5月7日 · 阅读需 10 分钟

Tian Pan

Software Engineer

当你的 AI 功能上线，各项指标开始亮眼——DAU 飙升、NPS 攀升、点赞反馈涌入——你可能正在目睹真正的产品市场契合度。也可能只是两幕故事的第一幕，而第二幕以一个没人预料到的留存悬崖收场。

问题在于，这些信号对概率性 AI 功能而言在结构上就是失效的。它们是为确定性软件设计的——在那里，"已激活"有明确含义，五星好评能预测未来使用，新鲜感在数天内消退，而不是掩盖一个六个月后才显现的流失浪潮。AI 功能的行为模式截然不同，而标准 PMF 工具包是针对错误输入校准的。

关于 Tian Pan