跳到主要内容

AI 功能中的冷启动问题:为何第一周总是失败

· 阅读需 12 分钟
Tian Pan
Software Engineer

你构建了一个个性化功能,将其接入应用,然后发布上线。第一周到了。系统尽职尽责地为每个新用户推送同样的几个全局热门内容——你的 AI 号称智能,却连按字母排序的列表都不如。参与度指标几乎没有变化。团队得出结论:模型需要更多调优。其实不然。模型完全按设计运行。问题在于,你要求它在没有任何可学习内容之前就开始学习。

这就是冷启动问题,它摧毁的 AI 功能比糟糕的模型多得多。

核心矛盾是循环的:行为机器学习系统需要用户交互才能产生有用的预测,但它需要产生有用的预测才能获得用户交互。某大型电商平台记录显示,冷启动影响了超过 60% 的新用户——这些用户收到了明显失准的推荐,可测量地损害了转化率。在整体指标中,这一信号几乎不可见,因为活跃用户掩盖了损失。

真正失败的是什么(以及为什么)

冷启动不是单一的失败模式——它是一组相关问题,根据系统哪个部分"冷启动"而以不同方式表现。

协同过滤从一开始就瘫痪。 CF 通过找到与当前用户相似的用户,并呈现这些用户参与过的内容来工作。没有交互历史,就无法计算邻域。用户-物品矩阵为空;矩阵分解产生的是噪声而非信号。

系统默认使用热度排序,而这几乎不是用户想要的。 在没有个性化信号的情况下,全局热门内容对所有用户实现了最大相似度,因此它们充斥着每个冷用户的信息流。这种"热度陷阱"特别隐蔽,因为热度排序并不是明显错误的——热门内容平均而言确实是不错的选择——但"平均"恰恰是个性化系统的错误优化目标。用户来的是相关性,不是共识。

新物品是不可见的。 一个新上架的产品、文章或曲目没有交互历史,协同系统无从推荐它。这造成了复合问题:从未得到早期推广的内容永远不会积累赢得推荐所需的交互。长尾内容可以无限期地处于这种冷启动状态。

早期信号锁定反馈循环。 冷启动期间发生的少量交互具有超出比例的权重,因为几乎没有其他信号来稀释它们。如果新用户的前三次点击是意外或依赖于特定情境的,系统可能围绕统计噪声构建偏好档案。该档案随后影响未来推荐,进而影响未来交互,强化了嘈杂的档案。DeepMind 对推荐系统的研究发现,在冷启动期间偏向利用的算法比倾向探索的算法产生了可测量的更多"系统退化"——过滤泡沫和狭窄的用户画像。

LLM 路由面临同一问题的领域迁移变体。 决定哪个模型处理哪类查询的路由器需要关于你的特定用户如何表达你的特定领域查询的标注示例。在通用基准上训练的路由器在新领域部署时泛化效果很差。一旦你在没有查询历史的新产品领域推出,你就有了一个冷启动路由系统。

三层引导架构

应对冷启动最健壮的方法不是单一解决方案——而是分层系统,其中每一层对其实际可用的数据进行操作。

第一层:规则和人工策划

从没有机器学习开始。先构建启发式版本。

这不是失败主义——这是正确的顺序。基于规则的系统无需数据即可工作。它们立即为用户提供价值。最关键的是,它们生成了你最终的机器学习模型所需要的训练数据。一个在用户推断地理位置中推送最畅销商品的系统并不令人印象深刻,但它能转化,它收集交互信号,并为你的机器学习团队提供了一个可以超越的基准。

谷歌的机器学习规则文档明确指出:"不要害怕在没有机器学习的情况下发布产品。" GitHub 前员工 Hamel Hussain 给出了超越哲学的实际原因:先手动解决问题迫使工程师以单纯依赖模型的方法永远无法达到的深度理解他们的数据。

人工策划添加了第二个基于规则的层。手动选择按你确实拥有的粗粒度信号分段的"入门包"集合:设备类型、引荐 URL、地理位置、一天中的时间。从自行车论坛到达的用户和从烹饪通讯到达的用户不应该看到相同的冷启动内容,而你可以在没有任何行为数据的情况下做出这种区分。

第二层:基于内容和迁移信号

当基于规则的系统承担负载时,用非行为信号为你的机器学习模型播种。

基于内容的相似性不需要交互数据。物品元数据——描述、类别、图片、音频特征、标签——可以嵌入共享向量空间,其中语义接近度替代行为共现。一个没有购买历史的新产品仍然有属性;一个没有播放历史的新曲目仍然有音频特征。Spotify 在收录时分析每首新曲目,在单个用户播放之前构建 42 维音频特征向量并对歌词进行基于 LLM 的语义分析。曲目以其在嵌入空间中的位置进入推荐系统,而不是空白状态。

从相邻信号迁移利用了用户通常在相关领域有行为历史这一事实。DoorDash 扩张到杂货配送清晰地说明了这种模式:用户没有杂货历史,但他们有大量餐厅订单历史。DoorDash 构建了一个基于 LLM 的系统,从餐厅菜系选择推断杂货偏好——经常点泰国和印度食物的人可能有关于辣度和新鲜香草的偏好。迁移有效:他们测量到相对无迁移基准的两位数 CTR 改善。

可推广的洞察是:在得出你没有数据的结论之前,先审计你在相邻系统中拥有哪些行为信号。搜索查询、放弃的购物车、类别上的会话深度、引荐模式——这些单独来看都是弱信号,但组合起来可以大幅缩短冷启动窗口。

合成种子数据是一个新兴的第三选项。LLM 可以生成合理的训练示例——相关性判断、模拟用户画像、查询-答案对——在真实用户数据存在之前预热模型。Algolia 发现 LLM 生成的相关性判断与人类专家注释的准确率约为 97%,使合成信号成为可行的引导机制。对于路由模型,近期研究表明,从结构化任务分类法生成合成问答对可以产生优于在跨领域真实数据上训练的系统的路由器。

一个关键警告:将合成数据用作一次性种子,而不是持续生成循环。在 AI 生成的数据上训练模型,然后使用该模型为下一版本生成数据,会导致性能逐步退化——牛津大学研究人员在 2024 年的《自然》杂志上证明了这种"模型坍塌"现象。使训练数据有价值的多样性在每个生成周期中都会侵蚀。

第三层:探索基础设施

一旦你的系统开始生成推荐,它需要有效地收集信号。这就是探索策略重要的地方。

纯粹利用当前知识会加速反馈循环。纯粹探索会浪费用户体验。管理这种权衡的标准框架是多臂老虎机——系统地平衡提供已知最佳推荐与探测不确定推荐的算法。

汤普森采样和 UCB(置信上界)是主要方法。UCB 本质上偏向未充分探索的内容:它选择置信上界最高的内容,这意味着不确定的内容会被提升,直到其不确定性解决。这自然地调查新内容和新用户,无需显式探索逻辑。汤普森采样通过从后验分布中采样实现类似效果——增加随受控随机性,随着证据积累而衰减。

TikTok 的内容分发架构是大规模老虎机式探索的有据可查的例子。每个新视频进入 500 到 1000 次初始观看的小测试池。最初几小时的参与率决定视频是否晋升到 10000 次观看,然后是 100000 次,然后是病毒式分发。每个新创作者从相同的冷启动状态开始;算法本身通过分层探索而不是要求预先训练数据来解决冷启动。

用户端等价物:引导是你最高杠杆的数据收集机会。大多数团队将引导优化为最小摩擦,这对转化是正确的——但最小引导最大化冷启动时间。最优设计要求提供每个问题最多消歧的偏好信号,作为价值交换呈现("告诉我们你喜欢什么,我们立即个性化")而不是数据提取。主动学习研究表明,向用户呈现旨在区分品味集群的内容,每次交互产生的信息远多于随机或基于热度的探测。

冷启动持续多久?

没有通用阈值,但大多数系统的实际答案是:比团队计划的时间长,但比团队担心的时间短。

用户冷启动通常在 5 到 20 次有意义的交互范围内解决。"有意义"是关键——被动曝光的权重低于明确参与,通过推荐驱动的参与比未经提示的搜索行为权重低,因为推荐驱动的参与受系统选择展示的内容影响。

物品冷启动在很大程度上取决于平台流量。对于 Spotify 或 TikTok,热门类别中的新内容可以在几天内从冷启动中毕业。对于流量较低的 B2B SaaS 推荐功能,同样的毕业可能需要几个月。

系统冷启动——用户和物品都是新的情况——是最严重的形式,通常需要三到六个月协同过滤才能成为主要推荐机制。在此窗口期间,规则和基于内容的系统应该承担负载,而不是被视为等待更多数据的临时尴尬。

毕业的信号:推荐多样性增加(你不再为所有人提供相同的热度热门),每用户 CTR 在用户间有意义地分化(个性化实际上在区分),A/B 测试显示机器学习模型对拥有足够交互历史的用户优于热度回退。

不必要地延长冷启动的错误

在拥有数据之前发布机器学习。 团队构建协同过滤模型并在数据真空中发布。模型输出噪声,团队得出它需要更多调优的结论,他们推迟发布本可以生成所需训练数据的基于规则的回退。正确的顺序是先规则,然后是机器学习。

单一信号依赖。 明确评分的响应率为 1 到 10%。点击是嘈杂的且受位置偏差影响。单独使用任何一个在冷启动期间都是不够的。结合多个弱信号——停留时间、滚动深度、购物车行为、放弃模式、搜索查询——产生的训练数据比任何单一来源都丰富得多。

冷启动期间的批处理管道机器学习。 每天重新训练一次的系统在需要从稀疏的早期交互中快速学习时特别有问题。冷启动恰恰是实时或近实时反馈循环最重要的时候。如果你的基础设施强制执行 24 小时反馈周期,早期交互需要整整一天才能影响下一个推荐——足够长到用户已经流失。

不单独跟踪冷启动用户。 在活跃和冷启动用户之间平均性能指标使问题不可见。在拥有五次或更多次交互的用户中具有出色留存率的产品,同时可能正在流失从未达到该阈值的新用户。明确跟踪冷启动用户群,用他们自己的仪表板和成功标准。

将其视为纯技术问题。 冷启动处于机器学习工程、产品设计和数据收集策略的交叉点。最具成本效益的干预通常是产品端:更好的引导流程、具有有意义完成激励的偏好调查、加速个人资料构建的明确"不感兴趣"信号。将冷启动完全委托给机器学习工程师会错过产品团队可以产生最大影响的表面积。

分层冷启动行动手册

将这一切联系在一起的心理模型:将你的 AI 功能设计为三个并行运行的并发系统,而不是一个随时间改进的系统。

规则层立即为所有人提供服务并生成训练数据。迁移和内容层使用非行为信号从第一天起提供优于随机的个性化。行为机器学习层从薄弱开始,从每次交互中学习,随着个别用户和物品积累足够的历史记录,逐渐接管其他两层的工作。

每个用户和每个物品按照自己的时间表在这个堆栈中移动。拥有 20 次有意义交互的用户已经处于行为机器学习领域。昨天注册的用户仍处于规则层。今天早上收录的新物品仅处于基于内容的层。你的系统需要同时处理所有这些状态,而不是按顺序。

冷启动不是发布前需要修复的错误。它是一种设计状态,有其自己的工具箱——将其视为一流工程关注点而不是等待更多数据的临时限制的团队,才是那些留住他们花费大量资金获取的用户的团队。

References:Let's stay in touch and Follow me for more thoughts and updates