跳到主要内容

AI 个性化的冷启动问题:在拥有数据之前如何提供价值

· 阅读需 13 分钟
Tian Pan
Software Engineer

大多数个性化系统是围绕一个飞轮构建的:用户进行互动,你学习他们的偏好,你展示更好的推荐,他们从而进行更多互动。随着数据的积累,飞轮转得越来越快。问题在于,飞轮需要速度才能产生升力——而新用户完全没有速度。

这就是冷启动问题。而且它比大多数团队在首次发布个性化功能时所认识到的更为危险。一个新用户在到达时没有任何历史记录,没有信号,通常还带着怀疑的先验预期:“AI 并不了解我。”你大约有 5 到 15 分钟的时间来证明并非如此,否则他们就会形成一种定论,决定他们是否会留得足够久,以产生那些能让你真正帮助到他们的数据。如果这个窗口期表现糟糕,高达 75% 的新用户会在第一周弃用产品。

冷启动问题不是数据问题,而是初始化问题。工程上的问题是:在缺乏历史记录的情况下,你应该注入什么?

为什么标准协同过滤在这里会失效

协同过滤(大多数推荐系统的基石)通过寻找过去行为与你相似的用户,并假设你会喜欢他们喜欢的东西来工作。一旦你拥有了行为数据,这是一种强大的技术。但问题是结构性的:它需要一个现有的互动矩阵来寻找相似用户。而一个新用户只是一行空白。

针对这种情况存在基于流行度的回退机制:向新用户展示大多数用户参与的内容。这可以作为基准线,但它完全破坏了个性化的感知。看到“热门”推荐的新用户不会觉得被理解——他们会觉得被敷衍了。对于由 LLM 驱动的产品,这种差距更糟糕。一个因为没有用户上下文而默认给出通用回复的 LLM 助手,看起来很蠢,而不是中立。

这种失败会产生复合影响,因为冷启动也是用户期望最高的时候。用户刚刚注册,他们对产品持开放态度。第一场会话是你赢得他们信任的机会,否则就会印证他们的猜想:AI 产品只是华而不实的模式匹配。

入职过程中的信号捕获:隐式 vs 显式

引导个性化最快的方法是直接询问。但如果问得不对,你会在用户看到产品之前就失去他们。

显式信号——偏好调查、入职问卷、两两比较——为你提供直接信息。关于偏好获取设计的研究已经得出了几个具体的结论:

  • 询问属性,而非项目。 “你喜欢哪种菜系?”的效果优于“请给这五家餐厅评分”。属性问题具有泛化性;而针对特定项目的问题只能告诉你用户喜欢某个具体的东西。
  • 使用两两比较而非数字量表。 询问“这两个你更喜欢哪一个?”比要求用户分别对项目评分能提取更多的每题信号。数字评分量表往往与较低的愉悦感相关——它们让人感觉像是在做作业。
  • 最多 5 到 8 个问题。 超过这个阈值,完成率会急剧下降。设计每个问题时要追求信息获取最大化,而不是覆盖面最大化。
  • 渐进式披露优于预置加载。 一次性显示所有入职问题会导致决策疲劳。分支问题树(每个答案决定下一个问题)可以减少认知负荷,同时实际上能从完成问卷的用户那里捕获更多信号。

隐式信号——点击、停留时间、滚动深度、导航模式——对用户来说没有成本,但需要初始互动才能产生。第一场会话几乎完全是隐性的,因此你的入职设计需要创造结构化的机会来观察行为:展示一小组选项并观察哪些被探索,或者提供备选项并跟踪哪些被展开。

最好的入职系统结合了两者。注册期间的显式问题为初始模型播下种子;第一场会话的隐式信号则立即对其进行微调。当用户完成第一次互动时,系统对他的了解已经比他刚进入时多得多。

队列先验注入:借用群体历史

你没有这个特定用户的数据,但你有成千上万个在最初几分钟内表现相似的用户的数据。队列先验注入(Cohort-prior injection)就是利用这些群体数据来初始化新用户个性化模型的技术。

贝叶斯框架在这里非常有用:你根据群体分布为新用户构建一个先验概率,然后随着用户产生观察结果来更新该先验。从一个通用的先验开始,但根据你可用的信号进行参数化:地理位置、推荐来源、设备类型、注册时间、入职时的显式属性偏好。每个信号都会缩小相关队列。

几种实现模式:

基于细分条件的默认设置。 与其提供单一的“冷启动”默认体验,不如维护 10 到 20 个根据历史用户群构建的细分概况。根据可用信号将新用户路由到最相关的细分群体,并将该群体的行为分布用作初始化。特定队列的选择至关重要——一个推荐来源是烹饪社区的新用户,其初始先验应该与来自生产力工具通讯的用户完全不同。

细分群体内的趋势 vs 全局趋势。 通过将“流行”范围限制在正确的队列中,可以显著改善“展示热门内容”这一冷启动回退方案。即便相似性信息不完整,在与该新用户相似的用户群中流行的内容,也比全局流行内容有用得多。

探索与利用的平衡(Bandits)。 上下文多臂老虎机(Contextual bandit)模型非常适合早期个性化,因为它们显式地平衡了探索(学习该用户的反应)与利用(展示用户可能感兴趣的内容)。DoorDash 在为新用户进行菜系排名时使用了这种方法:老虎机模型在探索用户偏好的同时,仍会展示相似用户历史参与度高的菜系,从而防止纯探索带来的“白板式”瘫痪。

队列先验的局限性在于覆盖范围。如果你的群体中不包含与新用户相似的人,先验就会增加噪声而非信号。队列先验在用户分布密集的中心地带最可靠;对于真正新颖的用户类型,其效果会下降。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates