跳到主要内容

62 篇博文 含有标签「product」

查看所有标签

你的 Token 预测从未考虑过的重尾效应

· 阅读需 10 分钟
Tian Pan
Software Engineer

你的 AI 功能成本预测是基于一个 50 人的试点项目建模的。那些用户输入了三句话的提示词,因为那是人们在被要求评估测试版时通常会输入的内容。产品上线了,你突破了一万名用户,财务团队指出你的模型账单是计划书中人均成本的三倍。你去寻找 Bug。但根本没有 Bug。你的试点项目是从一个分布中采样,而生产环境是从另一个分布中采样,两者的区别在于一个长尾用户群——他们是在 Twitter 上了解到你的产品,并粘贴了从推文中截取的 30 KB 非结构化上下文。

这是每家消费级互联网公司在 2010 年代都吸取过的同样财务教训,现在被移植到了 LLM 经济学中。试点项目的中位数用户并非生产环境中的 p99.5,而一个使用平均值作为预测输入的 Token 成本模型,在面对账单时注定会一败涂地。

Token 预算是产品决策,而非配置值

· 阅读需 12 分钟
Tian Pan
Software Engineer

在你的代码库某处,有一行代码看起来像 retriever.search(query, top_k=8)。某位工程师在某个下午写下了那个 8。它从未被团队以外的任何人评审过,从未出现在规范文档中,也从未被重新审视。这一个整数决定了你的上下文窗口中有多少配额分配给了检索到的文档而非对话历史,决定了每次请求的成本,决定了响应速度的感官体验,并且——由于语言模型在长文本下的实际表现——还决定了答案的准确性。

这是一个产品决策。它却被硬编码在一个 f-string 里。

那个设定了你跑不起的基准的 Demo

· 阅读需 10 分钟
Tian Pan
Software Engineer

演示很顺利。智能体(Agent)回答了那个难题,流畅地串联了四个工具调用,生成的一段文字让全场安静了片刻,直到有人喊出“发布吧”。没人问成本是多少。没人问它运行在哪个模型上,你在成功之前尝试了多少次输入,也没人问当一千个人同时使用它,而不是你周二独自坐在办公桌前时会发生什么。

那场演示刚刚变成了一份契约。不是书面的——而是更糟。它成为了一个隐形的基准线,领导层、销售和客户都会据此来衡量最终发布的产物。而这份契约的条款是由一个你根本负担不起的系统设定的。

演示经济学与生产经济学之间的差距是真实且巨大的,而且在做出承诺之前几乎从未被定价。Gartner 预计到 2027 年,超过 40% 的智能体 AI 项目会因为成本超支而被取消。2026 年 3 月的一项调查发现,78% 的企业已经启动了智能体试点项目,但只有 14% 将其扩展到了全公司范围。试点失败并不是因为技术行不通,而是因为那个行得通的版本从来就不是任何人能够部署的版本。

后台智能体与通知预算:为什么主动 AI 在用户注意力面前会遭遇硬上限

· 阅读需 11 分钟
Tian Pan
Software Engineer

第一代 AI 助手表现得很礼貌。你输入,它们回答。第二代则不再等待。它会观察你的日历、扫描你的收件箱、阅读你的代码库活动,并在你提出任何要求之前就抛出“你应该知道这个”之类的打扰。这种宣传极具吸引力,演示也令人着迷。但一旦这些功能上线,留存曲线却并不理想。

发布会幻灯片上没人会放这样一个数字:用户对来自所有渠道的未经请求的 AI 更新有一个每日上限,总和大约只有三到五个。如果一个主动式智能体在一周内发出了第十条通知,那么用户在周五就会将其静音,并在下个月将其卸载。这不仅是一个 UX 打磨问题,更是整个主动式 AI 领域的架构盲区,它值得拥有一个名字:通知预算(notification budget)。

对话式 REST:当你的聊天 UI 需要分页、过滤和排序时

· 阅读需 12 分钟
Tian Pan
Software Engineer

一名用户向你的购物智能体询问“150 美元以下、足弓支撑良好的跑鞋”。智能体尽职地返回了 12 个选项,但它们表现为单个聊天气泡中一长串超出视口的子弹点文本。用户滚动屏幕,找不着看到哪了,然后输入“只显示 Asics”——此时,你的智能体重新运行了整个搜索,而不是过滤它已经拥有的结果集。三轮对话后,用户正在通过一次一个提示词来发明一种查询语言,而你的产品感觉就像一个披着聊天气泡外壳的命令行。

这是我不断看到团队在交付时陷入的失败模式。他们在用户实际上想要的分面搜索(faceted-search)产品之上构建了一个聊天产品。模型没问题。检索也没问题。问题出在 UI 上,它的形态不适合这项任务。

我能给出的最简短的结论是:聊天是一种输入模态,而不是输出模态。智能体的职责是将用户意图转化为结构化查询。一旦结果集超过三项,正确的做法是渲染 UI,而不是继续说话。

撤回的代价:为什么撤回一项 AI 功能比上线它更难

· 阅读需 11 分钟
Tian Pan
Software Engineer

你现有的发布流程是为发布不可逆、回滚无成本的世界设计的。AI 颠覆了这一点。一旦某个功能上线了一个季度,撤回它的破坏成本就会超过发布它的成本 —— 而且你对该功能收到的最响亮的客户反馈,将是在你取消它的那天,而不是它发布的那天。

团队会为每次 AI 发布构建一个紧急开关(kill switch)。但没人会去拉动它。不是因为功能完美无缺,而是因为等到有人想撤回时,撤回的成本已经复合增长,超过了发布标准所考虑的任何因素。功能旗标(Feature flags)假设世界是对称的:开启前的系统和开启后的系统是同样有效的静止点,你可以根据喜好在它们之间移动。AI 功能默默地打破了这一假设,而团队围绕可逆旗标构建的发布流程,则悄无声息地忽略了这种不对称性。

团队第一次注意到这一点,是在有人提议弃用该功能时。

以单次对话成本为产品契约:当定价驱动架构设计时

· 阅读需 12 分钟
Tian Pan
Software Engineer

要发现你的 AI 功能定价模型出错了,最直接的方法就是看哪位工程师正在半夜重写截断逻辑。他们并不是在交付什么新功能 —— 他们是在修补一个 PRD 从未提及的单位经济效益(unit-economics)漏洞,而且由于产品规格告诉他们预算是无限的,这个补丁必然是对用户不友好的。在固定费用的 SaaS 方案中,任何时长超过中位数的对话都在实时抽走公司的利润。唯一的问题在于,产品团队是否能在财务部门发现之前承认这一点。

传统的 SaaS 经济模型建立在近乎零的边际用户成本之上:一旦软件构建完成,服务下一个客户几乎不会增加基础设施开支。但 AI 功能打破了这一假设。对话中的每一次交互都会消耗推理算力,其成本随着 Prompt 大小、输出长度、工具调用(tool-call)的扇出量以及检索量而增加 —— 而且对话没有自然的终点。一个重度用户可以在一个计费周期内消耗 50 倍于中位数的成本,且完全不出产品设计的正常路径。在固定定价模式下,这种用户实际上是由其他用户群供养的,而公司通常要到三个月后的销货成本(COGS)报告出来时才会发现这一点。

这就是为什么 AI 功能的定价不是一个等到发布后再处理的财务问题。它是一个架构输入,决定了产品被允许做什么。如果拒绝在产品规格中将其透明化,只意味着它稍后会被那些没有产品决策权的人以更糟糕的方式解决。

对正确答案的点踩:当用户反馈训练出谄媚行为

· 阅读需 10 分钟
Tian Pan
Software Engineer

税务助手告诉用户欠税 4,200 美元。用户点击了“差评”。代码审查员指出了用户 PR 中的一个真实漏洞。差评。日历代理正确地表示周五前没有空档。差评。六个月后,团队的 Prompt 迭代收敛到了一个会推诿、含糊其辞,并愉快地建议计算可能有误的代理——而 CSAT 却上升了。

“差评”按钮衡量的不是质量。它衡量的是质量与悦耳度(palatability)的交集。如果一个由反馈驱动的优化循环不将这两者分开,就会训练出迎合性(sycophancy),并称之为产品市场契合点(PMF)。这并非假设性的风险。在 2025 年 4 月,OpenAI 撤回了一次 GPT-4o 更新,此前他们承认,基于好评/差评的新奖励信号“削弱了我们主要奖励信号的影响力,而后者原本一直在抑制迎合性”。一个支持停药并赞美显而易见的废话的模型,竟然通过了每一项内部偏好指标。

撒谎的 AI A/B 测试:LLM 实验中的新奇效应、结转偏差与锚定偏差

· 阅读需 12 分钟
Tian Pan
Software Engineer

你的 AI 功能在信心满满中上线了。A/B 测试显示用户参与度有了 12% 的统计学显著提升。置信区间没有重叠。样本量大小合适。p 值远低于 0.05。六周后,指标回落到了基准线。三个月后,它实际上已经低于基准线。实验告诉你该功能有效,但实验撒了谎。

这并不是你统计工具的 bug。这是标准 A/B 测试所测量的指标,与人类随着时间的推移与概率性 AI 系统互动之间存在的根本性错配。三种特定的偏差——新奇效应膨胀、锚定偏差和结转偏差——共同导致了每个 AI 功能实验的虚高,而增加留置组(holdout group)的常规补救措施并不能解决其中的任何一个问题。

AI 副驾驶 vs. AI 飞行员:基于证据的产品决策框架

· 阅读需 10 分钟
Tian Pan
Software Engineer

每个构建 AI 产品的团队都面临同一个路口:AI 应该为人类提供建议,还是自主行动?这个问题听起来很有哲学意味,但答案实际上是可以量化的——而且弄错代价高昂,往往在上线六个月后才会显现,那时你的覆盖率指标看起来很好,但用户信任分数已经在悄悄崩溃。

Klarna 在 2024 年初用一套自主 AI 系统替换了 700 名客服人员。到 2025 年,CEO 承认他们"走得太远了",并悄悄开始为复杂案例重新招聘人工客服。该 AI 在一个月内处理了 230 万次对话,将问题解决时间从 11 分钟缩短到不到 2 分钟。数字看起来很漂亮。但根本问题——金融产品的客户服务需要同理心和判断力,而不仅仅是解决速度——在所有偏离常规路径的场景中,以下降的满意度形式滞后显现。

AI 功能 PMF 信号:为什么你的指标在欺骗你

· 阅读需 10 分钟
Tian Pan
Software Engineer

当你的 AI 功能上线,各项指标开始亮眼——DAU 飙升、NPS 攀升、点赞反馈涌入——你可能正在目睹真正的产品市场契合度。也可能只是两幕故事的第一幕,而第二幕以一个没人预料到的留存悬崖收场。

问题在于,这些信号对概率性 AI 功能而言在结构上就是失效的。它们是为确定性软件设计的——在那里,"已激活"有明确含义,五星好评能预测未来使用,新鲜感在数天内消退,而不是掩盖一个六个月后才显现的流失浪潮。AI 功能的行为模式截然不同,而标准 PMF 工具包是针对错误输入校准的。

为什么 AI 功能会让 A/B 测试失效(以及不会撒谎的因果推断方法)

· 阅读需 12 分钟
Tian Pan
Software Engineer

你上线了一个 AI 功能,运行了一次干净的两周 A/B 测试,看到参与度提升了 4%,然后宣告成功。六个月后,功能全量发布,参与度却持平甚至下滑。测试结果不是因为噪声——而是根本就在衡量错误的东西。

A/B 测试建立在一个假设之上:实验组和对照组的用户在统计上是相互独立的。而 AI 功能会系统性地打破这一假设。用户相互交流、从彼此的行为中学习,并共享 AI 工具的输出结果。当真正的机制是长期的行为适应时,两周内处理效应并不会趋于稳定。忽视这一点,你的实验会给出一个内部自洽却因果无意义的数字。