跳到主要内容

AI 个性化中的冷启动问题

· 阅读需 13 分钟
Tian Pan
Software Engineer

一个用户注册了你的 AI 写作助手。他们输入了第一条消息。你的系统此时只有一个数据点 —— 并且必须做出决定:是正式还是随性?是冗长还是简洁?是提供技术深度还是通俗概览?大多数系统都会采取折中方案,提供一个通用的默认设置。少数系统尝试立即进行个性化。而那些立即进行个性化的系统往往会让事情变得更糟。

AI 个性化中的冷启动问题与 Netflix 十五年前解决的问题并不相同。它在结构上更难,失败模式更隐蔽,而且常见的修复方案会主动引入新的 Bug。以下是交付过个性化系统的从业者在应对这一问题时学到的经验。

为什么 LLM 冷启动是一个不同的问题

经典的协同过滤冷启动是一个数量问题:你缺乏足够的评分来寻找相似的用户或物品。解决方法是更快地收集评分 —— 无论是显式的还是隐式的 —— 直到邻域足够密集以进行三角定位。

LLM 个性化不是一个数量问题。它是一个结构问题。偏好空间实际上是无界的。在电影推荐系统中,偏好跨越的是一个固定的目录。而在 LLM 助手中,输出空间涵盖了回复长度、语气、正式程度、专业性、引用风格、委婉还是直接、要点列表还是正文段落、领域深度,以及随着用户改变上下文而不断变化的数十个其他维度。这里没有固定的目录。

积累的数据带有噪声,其方式与协同过滤数据不同。一个立即重新表述查询的用户可能是觉得答案错误,也可能只是在进行探索。简短的后续消息可能意味着满意,也可能意味着不再参与。隐式的 LLM 反馈是一个具有解释歧义的信号,而将其视为纯粹奖励代理(reward proxy)的系统将会学到系统性的错误结论。

即使拥有丰富的历史记录,这也依然很困难:2025 年的一项基准测试(PersonaMem)发现,包括 GPT-4.5 和 Gemini-1.5 在内的前沿模型在动态偏好遵循方面的综合准确率仅为 50% 左右,即使可以访问完整的交互历史也是如此。细分数据至关重要 —— 模型在回忆用户陈述的静态事实(如“我更喜欢 Python”)时准确率可达 60-70%,但在结合演变中的偏好时准确率会降至 30-50%。大约 48% 的 GPT-4o 错误涉及生成“大体合理但未个性化”的回复。模型知道如何写出好的回复;但它不知道如何针对写出好的回复。

如果拥有丰富历史的顶尖模型都感到吃力,那么在什么都没有的冷启动情况下,更需要深思熟虑的架构设计,而不是一个补丁式的个性化层。

在询问之前提取信号

最近研究中最具操作性的发现是:从第一条消息中就能获得有意义的信号,而无需任何显式的偏好提问。

查询结构携带的信息比大多数系统利用的都要多。2025 年的 ProfiLLM 研究确定了四个能从单条提示词中可靠推断用户专业知识的信号:查询中的概念复杂度、领域术语的准确性、问题框架中的理解深度,以及与相邻轮次的上下文连贯性。单条消息就能将高级用户预测专业得分与实际得分之间的差距缩小 55-65%。仅经过几次对话,每个领域的错误率就能降至 0.3-0.65 —— 虽然不完美,但远高于随机水平。

具体来说:how do I make my code faster(如何让我的代码更快)和 why does my async Rust future not implement Unpin when using Pin<Box<dyn Future>>(为什么在使用 Pin<Box<dyn Future>> 时我的异步 Rust future 没有实现 Unpin)携带了截然不同的信号,涉及预期的回复深度、语气和假设的知识背景 —— 且这些信号在零交互成本下即可获得。

除了首条消息的词汇量之外:

  • 问题框架风格:程序性问题(“如何做……”)对比概念性问题(“为什么……”)再对比调试类问题,这些都指示了不同的认知需求和首选的输出结构。
  • 重述率:在回复后立即重新表述的用户会为你提供能得到的最强早期信号。在没有明显原因(不是新任务,只是重新表述)的情况下进行重述,表明了明显的失调。
  • 会话深度:在第一次会话中发送十条消息的用户与发送两条消息的用户具有不同的意图深度。首个会话的消息数量是衡量参与风格的一个微弱但可靠的信号。

环境信号 —— 设备类型、来源路径、时间 —— 在任何交互发生之前就已存在,可以用来初始化一个弱先验。从 GitHub 链接进入的开发者与从普通搜索进入的开发者是不同的,甚至在他们打字之前就是如此。

实践总结:在构建任何显式反馈收集机制之前,先配置你的系统以从早期消息中提取结构化特征。这是你目前正在丢弃的信号。

在个性化个人之前分层设置默认值

团队犯下的最大错误是直接从“无数据”跃迁到“个人个性化”。正确的架构分为三个层级,跳过中间层级正是早熟个性化(premature personalization)开始产生负面影响的地方。

第 1 层:全局用户默认设置。 整个用户群中最受青睐的回复风格、长度和语气。这是基准线 —— 计算成本低,且总是优于纯随机。其已知的失败模式很明确:“完全忽略了用户的任何潜在上下文。高度通用且通常无关紧要。”仅在拥有足够信号进入下一层级之前使用它。

第 2 层:分群默认设置。 在个性化个人之前,先将现有的用户群体划分为行为集群(behavioral clusters)。当新用户到来时,根据其早期信号将其路由到最近的集群,然后提供该集群的首选默认值,而不是全局平均值。基于集群的强盗算法(Cluster-Based Bandits)研究(SIGIR 2021,目前仍被大量引用)表明,将新用户初始化为最近的集群,与从全局先验开始相比,显著降低了探索成本。

贝叶斯版本:离线从群体数据中学习偏好维度的潜在先验,然后随着新用户的交互进行更新。Pep 框架(2025)显示,这种方法能达到理论最优性能(oracle performance)的 77-87%,而所需的交互次数比强化学习基准线少 3-5 倍。在某些基准测试中,所需交互次数的减少甚至达到了 15 倍。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates