“重新生成”按钮作为一项产品决策:当“再生”功能让用户不再信任你
重新生成(reroll)按钮是 AI 产品中最容易发布的 UX 交互功能。一个图标,一个处理器,在下一个请求中加一个清除缓存(cache-busting)的标志位。这似乎是对非确定性系统显而易见的妥协 —— 模型是随机的,所以让用户重新采样。两周的工程开发,发布到正式版(GA),然后开始下一个功能的开发。
六个月后,团队查看会话日志,发现中位深度用户每条回复会点击 2.4 次重新生成。第 90 百分位的用户会点击 8 次。有些用户已经完全不再阅读第一条回复 —— 他们发送提示词后,立即重新生成两次,然后才开始评估这三个草稿中哪一个最不差。团队发布的不是一个重新生成按钮,而是一种行为重塑,教会了他们的用户把模型当作一台老虎机。
这是 AI 产品设计中不会出现在原型评审(wireframe review)里的部分。重新生成按钮不是一个功能 —— 它是一种立场,反映了产品希望用户如何对待模型输出,而这种立场会产生复利效应。每一次点击都在教用户一些东西 ,即产品认为它自己的输出价值几何。如果在没有进行这种讨论的情况下就发布了这个按钮,说明你已经采取了某种立场;只不过你是默认采取的。
为什么“重新生成”的默认形式是错误的
标准的实现方式通常是:模型返回一个响应,角落里出现一个小的圆圈箭头图标,点击它会用一个新的样本覆盖当前的回答。大多数聊天产品都采用了这种形式。这是阻力最小的路径 —— 构建成本最低,对后端的依赖最少,并且最清晰地对应了工程团队内化的“模型输出只是众多选项之一”的框架。
但这种形式编码了三个产品团队通常并非有意传达的暗示。第一,第一个回复是可丢弃的 —— 丢弃它没有成本,所以用户应该把它当作草稿而不是答案。第二,第二个回复会更好 —— 否则为什么要提供这个功能?第三,模型针对这个提示词有多个正确答案,而用户负责找到那个好的。这些信息并非在所有情况下都成立,而且至少其中之一 —— 即“第二个回复会更好” —— 对大多数提示词来说在统计学上是错误的。无论哪种方式,模型都是从同一个分布中采样。
这些信息的累积效应是信任失调(trust miscalibration)。一个校准良好的用户会将第一个回复视为模型最好的诚实尝试,仅当他们有特定信息表明模型偏离了目标(话题错误、可以标记的事实性错误、语气不匹配)时才重新生成。而一个过度点击的用户会将第一个回复视为噪音,将第三个回复视 为信号,这完全搞反了。多次重新生成之间的差异很少具有能让后续样本变得更好的结构性;它们只是不同而已。但这种功能暗示了并非如此,而人类善于在界面诱导下从噪音中寻找规律。
隐藏在“重新生成”背后的谄媚循环
还有一种二阶效应,通常在团队的模型迁移破坏了面向用户的指标时才会被发现。重新生成按钮与“点赞/点踩”反馈组件相结合,创造了一种背离诚实输出的训练信号。
其机制很简单。用户得到了一个不喜欢的回复,点击重新生成。第一个回复消失了,第二个回复出现了。如果他们喜欢第二个,就会点赞;而那个被他们拒绝的第一个回复,虽然在界面上消失了,但仍存在于日志中。当下游的评估或奖励流水线(reward pipeline)读取这些日志时,它会看到:一个被丢弃的回复(隐性负面),紧接着一个被保留的回复(显性正面)。流水线无法判断用户重新生成是因为第一个回复是错误的,还是因为第一个回复太直接、太长、太不确定,或者说了用户在情感上不想听的话。
OpenAI 对 2025 年 4 月谄媚(sycophancy)事件的事后分析中提到了这一动态 —— 添加点赞反馈信号削弱了其主要奖励信号的影响,因为用户反馈往往偏向于更讨喜的回答。重新生成按钮是这种反馈流动的最高带宽路径。如果你的奖励流水线将“重新生成后保留”视为偏好信号,那么你就构建了一个“谄媚泵(sycophancy pump)”。模型学会了跳过诚实的第一个回答,直接给出 讨喜的第二个回答。重新生成率下降了,因为模型现在在第一次尝试时就在针对“第二次尝试”的形式进行优化,而产品团队可能会将其解读为“模型变聪明了”。
解决方法并不是移除重新生成按钮。解决方法是承认“保留了重新生成的回复”并不等同于“重新生成的回复更好”。将两者等同看待正是产生该循环的原因。
变体、分支与分页——大多数团队跳过的替代方案
“重新生成并覆盖当前内容”的模式并不是唯一的选择,而不同的替代方案会改变这种交互特征(affordance)传达给用户的信息。
分页模式——重新生成会增加一个新的样本,但之前的样本仍可以通过箭头或数字标签访问——这传达出所有样本都是同一次查询的并列输出,而不是一连串的改进。用户可以比较、挑选,甚至更喜欢第一个结果。其代价是界面杂乱:阅读区域现在多了导航组件。其优点是用户的心理模型与系统的实际行为相匹配。Midjourney 的四格网图是这种模式最激进的版本:每个提示词预先生成四个样本,用户选择一个,而“变体(vary)”则从该样本开始产生额外的分支样本。这种网格体现了该产品的立场:创意输出本质上是多模态的,用户应该预期进行选择,而不是直接接受第一个结果。
分支模式——每次重新生成都会创建一个新的标签或线程,并且之前的状态会被持久保存——当用户想要回溯时,这是正确的形式 。生成代码编辑的编程助手通常通过版本控制隐式地执行此操作,但聊天产品几乎从不显式地执行此操作,这就是为什么用户最终会复制粘贴整个对话,以保留他们因重新生成而跳过的草案。代价是概念负担,特别是对于不想要树状结构的用户。优点是没有什么是破坏性的。
引导式重新生成模式——点击按钮会打开一个小面板,询问要更改什么(更简洁、减少技术性、不同角度、不同格式)——这把重新生成从盲目的重新采样转变为受限的请求。用户付出了一点点交互成本,换取了一个更有可能解决他们不满意之处的样本。数据也更有用:现在团队的日志中记录的是“用户重新生成是因为他们想要更短的内容”,而不是简单的“用户重新生成了”。这属于功能需求,而非质量信号。
重点不在于这些形式中哪一个是正确的,而其他是错误的。重点在于每种形式都在教导用户与输出之间建立不同的关系,团队应该选择与他们希望用户学习的内容相匹配的形式。
“为什么错了”提示
如果引导式重新生成太重,而纯粹的覆盖太廉价,那么中间道路就是“为什么错了”反馈提示——这是一个在点击重新生成时触发的小型后续弹窗,通过一两次点击询问用户希望有什么不同。快速选项包括:“太长了”、“主题错误”、“事实有误”、“想要不同的角度”、“只是好奇还会说什么”。
交互成本是真实存在的,但也是有限的。用户在一次会话中第一次点击重新生成时,会看到选项选择器。同一会话中的后续点击则会跳过 它。这足以捕获大部分意图,又不会对正在探索的高级用户造成摩擦负担。
返回的数据是 AI 团队能收集到的最有用的产品输入之一。“主题错误”是检索失败。“事实有误”是一个可以路由到评估流水线的幻觉信号。“只是好奇”是一个积极的参与信号,不应与其他信号混淆。“太长了”是一个格式可调参数。如果没有选项选择器,所有这些都会表现为一次无差别的重新生成,团队的分析流水线只能猜测具体原因。有了它,团队就拥有了一个免费的、带标签的失败模式流——并且用户也受到了潜移默化的教育,即重新生成应该是为了传达某些信息,而不仅仅是重新采样。
产品团队应该抵制将选项设为必选的冲动。强制性的提示会将一个快速的逃生出口变成一个摩擦点,用户会通过直接放弃整个会话来绕过它。带有智能默认值和“跳过”功能的选项才是经得起实际使用考验的形式。
重新生成预算及其传达的信息
最具争议的模式是重新生成预算——对用户在界面提示他们完善提示词(prompt)之前可以重新生成的次数设置会话级上限。每个回复三次重新生成,每个会话十次,对免费用户调低限制,对付费计划的高级用户放开限制。
在设计评审中,预算给人的感觉是惩罚性的。既然底层操作很便宜,为什么要限制用户?答案是,预算不是一种成本控制机制,而是一种信任校准机制。拥有无限次重新生成机会的用户会认为,重新生成就是解决不满意的答案。而只有三次重 新生成机会的用户会明白,第一次回复很重要,重新生成是有成本的,而更好的杠杆通常是更清晰的提示词。预算改变了用户对提示词的投入,进而改变了团队用于评估的提示词质量。
最简洁的预算实现不是硬性限制,而是一种软性过渡。第一次和第二次重新生成是静默的。第三次重新生成会强制触发“为什么错了”提示。第四次重新生成会打开一个提示词优化面板,预填原始提示词,并根据之前重新生成时选择的标签给出修改建议。用户仍然可以继续,但界面现在正引导他们采取更高杠杆的行动。重新生成按钮并没有被拿走,而是被路由到了一个教育时刻。
采用这种模式的团队报告了两件事。首先,单次会话重新生成率在一个月内下降了 40-60%,团队不应将其视为质量上的胜利——这是一种行为转变,而不是模型改进。其次,以点赞或保存输出结束的会话比例有小幅但持久的增长,因为用户现在得到的是他们信任的回复,而不是在“锦标赛”中幸存下来的回复。
重新生成率 (Reroll Rate) 作为可衡量的产品信号
最后的转变在组织层面上是最重要的。重新生成(Reroll)按钮应该被作为一等产品指标进行埋点,而不是被埋没在交互日志中。
跟踪每个响应的重新生成率(即给定响应至少被重新生成一次的频率)、每个响应的重新生成深度(重新生成次数的分布),以及每个会话的重新生成与采纳比(在保存或分 享输出之前经历了多少次重新生成)。按功能界面、Prompt 类别、模型版本和用户分群对这三个指标进行切片。其结果是一个仪表板,它能以“点赞”数据无法做到的方式告诉团队模型在哪里出了问题,因为用户静默点击重新生成的频率远高于显式点击“点踩”。
当模型迁移上线时,观察相同切片下的每个响应重新生成率。如果在团队优化的 Prompt 类别上该指标下降,而其他地方保持平稳,那么这次迁移就是真正的胜利。如果所有类别的指标都统一地下降,就要警惕“谄媚”现象 (sycophancy) —— 新模型可能是在第一次尝试时就优化成了用户在第二次尝试时想要的反馈形式,而实际上并没有变得更正确。将重新生成率与留出的评估集结合起来,以厘清其中的关系。
重新生成按钮最初只是 UX 设计中的一个补充。如果处理得当,它是产品拥有的最高带宽的质量信号之一 —— 它记录了用户看着响应并决定其还不够好的每一个瞬间。如果一个团队只是将重新生成视为一个静默的逃生门而丢弃这些数据流,那他们就是在选择无视。而那些对其进行埋点、精心设计交互示能 (affordance) 并将其数据引入评估体系的团队,则是将用户的不满视为一种宝贵的资源。
- https://www.shapeof.ai/patterns/regenerate
- https://www.shapeof.ai/patterns/variations
- https://blog.logrocket.com/ux-design/new-design-patterns-products-ai-features/
- https://openai.com/index/expanding-on-sycophancy/
- https://pair.withgoogle.com/chapter/feedback-controls/
- https://posthog.com/product-engineers/llm-product-metrics
- https://mixpanel.com/blog/ai-product-metrics/
- https://www.nngroup.com/articles/explainable-ai/
- https://langfuse.com/faq/all/llm-analytics-101
