AI 个性化中的冷启动问题
一个用户注册了你的 AI 写作助手。他们输入了第一条消息。你的系统此时只有一个数据点 —— 并且必须做出决定:是正式还是随性?是冗长还是简洁?是提供技术深度还是通俗概览?大多数系统都会采取折中方案,提供一个通用的默认设置。少数系统尝试立即进行个性化。而那些立即进行个性化的系统往往会让事情变得更糟。
AI 个性化中的冷启动问题与 Netflix 十五年前解决的问题并不相同。它在结构上更难,失败模式更隐蔽,而且常见的修复方案会主动引入新的 Bug。以下是交付过个性化系统的从业者在应对这一问题时学到的经验。
为什么 LLM 冷启动是一个不同的问题
经典的协同过滤冷启动是一个数量问题:你缺乏足够的评分来寻找相似的用户或物品。解决方法是更快地收集评分 —— 无论是显式的还是隐式的 —— 直到邻域足够密集 以进行三角定位。
LLM 个性化不是一个数量问题。它是一个结构问题。偏好空间实际上是无界的。在电影推荐系统中,偏好跨越的是一个固定的目录。而在 LLM 助手中,输出空间涵盖了回复长度、语气、正式程度、专业性、引用风格、委婉还是直接、要点列表还是正文段落、领域深度,以及随着用户改变上下文而不断变化的数十个其他维度。这里没有固定的目录。
积累的数据带有噪声,其方式与协同过滤数据不同。一个立即重新表述查询的用户可能是觉得答案错误,也可能只是在进行探索。简短的后续消息可能意味着满意,也可能意味着不再参与。隐式的 LLM 反馈是一个具有解释歧义的信号,而将其视为纯粹奖励代理(reward proxy)的系统将会学到系统性的错误结论。
即使拥有丰富的历史记录,这也依然很困难:2025 年的一项基准测试(PersonaMem)发现,包括 GPT-4.5 和 Gemini-1.5 在内的前沿模型在动态偏好遵循方面的综合准确率仅为 50% 左右,即使可以访问完整的交互历史也是如此。细分数据至关重要 —— 模型在回忆用户陈述的静态事实(如“我更喜欢 Python”)时准确率可达 60-70%,但在结合演变中的偏好时准确率会降至 30-50%。大约 48% 的 GPT-4o 错误涉及生成“大体合理但未个性化”的回复。模型知道如何写出好的回复;但它不知道如何针对你写出好的回复。
如果拥有丰富历史的顶尖模型都感到吃力,那么在什么都没有的冷启动情况下,更需要深思熟虑的架构设计,而不是一个补丁式的个性化层。
在询问之前提取信号
最近研究中最具操作性的发现是:从第一条消息中就能获得有意义的信号,而无需任何显式的偏好提问。
查询结构携带的信息比大多数系统利用的都要多。2025 年的 ProfiLLM 研究确定了四个能从单条提示词中可靠推断用户专业知识的信号:查询中的概念复杂度、领域术语的准确性、问题框架中的理解深度,以及与相邻轮次的上下文连贯性。单条消息就能将高级用户预测专业得分与实际得分之间的差距缩小 55-65%。仅经过几次对话,每个领域的错误率就能降至 0.3-0.65 —— 虽然不完美,但远高于随机水平。
具体来说:how do I make my code faster(如何让我的代码更快)和 why does my async Rust future not implement Unpin when using Pin<Box<dyn Future>>(为什么在使用 Pin<Box<dyn Future>> 时我的异步 Rust future 没有实现 Unpin)携带了截然不同的信号,涉及预期的回复深度、语气和假设的知识背景 —— 且这些信号在零交互成本下即可获得。
除了首条消息的词汇量之外:
- 问题框架风格:程序性问题(“如何做……”)对比概念性问题(“为什么……”)再对比调试类问题,这些都指示了不同的认知需求和首选的输出结构。
- 重述率:在回复后立即重新表述的用户会为你提供能得到的最强早期信号。在没有明显原因(不是新任务,只是重新表述)的情况下进行重述,表明了明显的失调。
- 会话深度:在第一次会话中发送十条消息的用户与发送两条消息的用户具有不同的意图深度。首个会话的消息数量是衡量参与风格的一个微弱但可靠的信号。
环境信号 —— 设备类型、来源路径、时间 —— 在任何交互发生之前就已存在,可以用来初始化一个弱先验。从 GitHub 链接进入的开发者与从普通搜索进入的开发者是不同的,甚至在他们打字之前就是如此。
实践总结:在构建任何显式反馈收集机制之前,先配置你的系统以从早期消息中提取结构化特征。这是你目前正在丢弃的信号。
在个性化个人之前分层设置默认值
团队犯下的最大错误是直接从“无数据”跃迁到“个人个性化”。正确的架构分为三个层级,跳过中间层级正是早熟个性化(premature personalization)开始产生负面影响的地方。
第 1 层:全局用户默认设置。 整个用户群中最受青睐的回复风格、长度和语气。这是基准线 —— 计算成本低,且总是优于纯随机。其已知的失败模式很明确:“完全忽略了用户的任何潜在上下文。高度通用且通常无关紧要。”仅在拥有足够信号进入下一层级之前使用它。
第 2 层:分群默认设置。 在个性化个人之前,先将现有的用户群体划分为行为集群(behavioral clusters)。当新用户到来时,根据其早期信号将其路由到最近的集群,然后提供该集群的首选默认值,而不是全局平均值。基于集群的强盗算法(Cluster-Based Bandits)研究(SIGIR 2021,目前仍被大量引用)表明,将新用户初始化为最近的集群,与从全局先验开始相比,显著降低了探索成本。
贝叶斯版本:离线从群体数据中学习偏好维度的潜在先验,然后随着 新用户的交互进行更新。Pep 框架(2025)显示,这种方法能达到理论最优性能(oracle performance)的 77-87%,而所需的交互次数比强化学习基准线少 3-5 倍。在某些基准测试中,所需交互次数的减少甚至达到了 15 倍。
第 3 层:个体信号。 一旦你拥有 10-20 次真实的交互,个体偏好建模就会比集群归属更加可靠。要平滑过渡 —— 从集群到个体的加权融合可以避免用户察觉并感到困惑的突然行为转变。
结构性教训:从冷启动到运行状态的转变本身就是一个架构问题。将此视为二元切换(冷启动 / 非冷启动)的系统,其表现始终不如那些显式管理预热阶段(warm-up phase)的系统。2025 年的一项关于贝叶斯预热模型的研究发现,与忽略这一过渡的系统相比,准确率提高了 14%,多样性提高了 12%。
你亲手构建的过滤气泡
这是大多数团队预料不到的失效模式:过早个性化(premature personalization)会产生一个过滤气泡,而且这个气泡在结构上比推荐系统产生的气泡更难逃脱。
这种机制是自我强化的。如果用户的前三次交互都围绕话题 X,且系统在随后的所有回答中都强化话题 X,那么即对话题 Y 相关,用户也永远接触不到话题 Y。系统仅凭极小的样本就拟合了一个错误的偏好,然后通过自身的行为确认了这一点。标准的反馈循环——用户觉得关于 X 的回答令人满意,因此继续进行与 X 相关的查询——会随着时间的推移不断收紧这个回路。
这并非理论上的担忧。一项针对 LLM 输出的研究发现,使用 人口统计信息(本案例中为政治派别)进行提示会导致模型“包含更多正面信息,并忽略与用户个人资料一致的实体的负面信息”。过滤气泡是作为训练数据模式的 涌现属性 出现的,而非来自任何显性的个性化逻辑。另一篇 2023 年的论文 (arXiv 2311.14677) 记录了个性化 LLM 输出如何追踪用户的人口统计信号,其方式反映了社交媒体推荐系统中的情感极化。
如何在用户察觉之前检测到它:
监控用户会话中的话题分布熵(topic distribution entropy)。一个健康的个性化系统应该在呈现给用户的内容中保持一定的多样性。如果话题分布在 20 个会话后坍缩为一两个类别,那么系统是在强化而非探索。跟踪嵌入空间(embedding space)中连续回复之间的余弦相似度——如果相似度趋向于 1.0,说明输出空间已经坍缩。
在满意度没有提升的情况下,重构率(reformulation rate)增加(即用户不断重新表述同一个问题,但系统始终无法给出满意的回答),这是一个行为信号,表明系统陷入了错误的吸引子状态(attractor state)。
如何逃脱:
刻意注入探索(deliberate exploration injection)是经证明有效的解决方法。为推断出的偏好集群之外的选项保留 5-10% 的推荐或回答框架。这是在个性化层而非 LLM 层的 ε-贪婪算法(epsilon-greedy)。淘宝在生产环境中部署的惊喜度对齐(serendipity-aligned)推荐实现了 29.56% 的点击增长和 27.6% 的惊喜商品交易额增长,且整个系统没有明显的收入损失。引入多样性的商业案例已经过量化证明,且结果是正向的。
在排序阶段采用汤普森采样(Thompson Sampling)提供了一个比 ε-贪婪算法更具原则性的替代方案:它从预期奖励的后验分布中采样,自然地将探索分配给高不确定性的选项,而不是进行统一的随机探索。
零起点冷启动且不搞砸
对于从零开始构建的团队,冷启动的实用序列如下:
自适应偏好诱导(Adaptive preference elicitation)优于固定问卷。 如果你必须在新手引导过程中向用户提问,问题的顺序应该根据之前的回答进行调整。固定脚本的问卷正被自适应方法取代,后者根据上一个答案揭示的信息来选择下一个问题。Pep 框架会根据用户的回答在 39-62% 的时间内改变后续问题,而强化学习基准线这一比例仅为 0-28%——非自适应方法本质上忽略了它刚刚学到的信息。目标设定为最多 3-5 个高信号问题;问卷越长,完成率就会骤降。
LLM 生成的合成用户可减少早期老虎机后悔值(bandit regret)。 在你的系统拥有真实用户之前,你可以通过使用 LLM 生成合成用户画像和偏好数据来预训练一个上下文多臂老虎机(contextual bandit)。EMNLP 2024 的研究表明,这在现实世界的部署中能减少 14-20% 的早期后悔值。当合成用户达到 5,000-10,000 名时,收益开始递减——你并不需要无限的合成数据。
决斗老虎机(Dueling bandits)在 20-60 次交互中即可实现冻结模型的个性化。 T-POP 框架利用用户对回答对(一个利用当前估算,一个探索不确定偏好)的二元反馈来精炼轻量级的在线奖励模型,而无需对底层 LLM 进行任何参数更新。性能在最初 20 次迭代中飙升,并在 40-60 次交互时达到顶峰。在各种设定下,相对于未经个性化的基础模型,胜率平均达到 94.2%。实际意义在于:你可以用冻结模型和极少的反馈实现有意义的个性化,这改变了那些担心微调基础设施成本的团队的成本计算方式。
奖励因子分解(Reward factorization)使偏好学习具有极高的数据效率。 不要为每个用户学习一个庞大的偏好模型,而是将偏好分解为基础维度(字数、语气、正式程度、对冲风格等),并从群体数据中离线学习这些维度。引导新用户时,只需在这些基础维度上进行 10-20 次精心挑选的比较。PReF 框架 (MIT, 2025) 在人工评估中实现了相对于非个性化 GPT-4o 67% 的胜率,且数据效率比每个用户的专用奖励模型高出 30 倍。
架构原则
适用于这些方法的几个原则:
在架构上将冷启动与热个性化分离。 在零数据阶段奏效的技术(贝叶斯先验、集群默认值、合成初始化)与在数据积累阶段奏效的技术(微调奖励模型、稠密行为嵌入)是不同的。构建一个试图涵盖全范围的单一系统,其表现将不如两端各自的专用方法。
对你的偏好检索进行近期权重加权。 PersonaMem 的数据表明,多个会话前表达的偏好对模型行为的影响不如近期偏好可靠。如果你存储用户偏好,请将检索权重向近期信号倾斜——这不是因为旧信号是错误的,而是因为它们可能已经发生了演变。
将偏好向量熵作为系统健康指标进行监控。 话题分布熵、回复嵌入多样性和重新表述率是信息茧房(filter bubble)形成的领先指标。当用户明确抱怨回复重复或变窄时,问题通常已经积压了数周。
AI 个性化中的冷启动问题并不是通过在提示词(prompts)中添加记忆来解决的。它的解决方案是设计一个系统:它知道自己不知道什么,能从极少的交互中提取最大信号,在群体层面智能地设置默认值,并主动防止个性化机制将用户体验坍缩进一个自我强化的窄道中。
- https://www.shaped.ai/blog/mastering-cold-start-challenges
- https://www.shaped.ai/blog/from-zero-to-relevant-solving-the-cold-start-user-problem
- https://arxiv.org/abs/2402.09176
- https://arxiv.org/abs/2502.11528
- https://arxiv.org/html/2602.15012
- https://arxiv.org/html/2506.13980v1
- https://arxiv.org/html/2509.24696
- https://arxiv.org/html/2503.06358
- https://arxiv.org/abs/2406.19317
- https://arxiv.org/html/2504.14225v2
- https://arxiv.org/abs/2502.13539
- https://ai.northeastern.edu/news/chatgpts-hidden-bias-and-the-danger-of-filter-bubbles-in-llms
- https://arxiv.org/abs/2311.14677
- https://www.shaped.ai/blog/explore-vs-exploit
- https://arxiv.org/html/2505.13355v1
