跳到主要内容

你从未闭合的反馈回路:将用户行为转化为 AI 真值

· 阅读需 12 分钟
Tian Pan
Software Engineer

大多数构建 AI 产品的团队会花费数周时间设计评分组件、星级点击、点赞/点踩按钮。然而六个月后,他们查看数据时发现响应率仅为 2% —— 数据偏向于极端体验,被那些带有强烈偏好的人主导,而且在区分 7/10 和 9/10 的输出方面几乎毫无用处。

与此同时,每一个用户会话都在产生源源不断的真实、明确的行为信号。接受代码建议并继续操作的用户是满意的。立即按下 Ctrl+Z 的用户则不满意。连续四次重新组织问题的用户正在告诉你一些显式评分永远无法捕捉到的信息:前三次回答都失败了。无论你是否收集,这些信号都存在。问题在于你是否正在闭合这个反馈回路。

为什么点赞评分在结构上是失效的

显式反馈(Explicit feedback)有一个根本性问题:它捕捉的是用户怎么说,而不是用户怎么做。这两者经常发生背离。

用户可能会给一个 AI 写作助手打五星,同时却在修改它生成的每一条回复中 80% 的内容。评分捕捉的是情绪 —— 这个工具感觉很有用,用户喜欢这个产品。而编辑行为捕捉的是质量 —— 输出结果一直有误,以至于需要手动纠正。如果你只根据评分进行优化,你将构建出一个让人感觉印象深刻但产出不可靠的系统。

这种背离也存在于另一个方向。那些默默满意的用户 —— 接受输出并继续操作的人 —— 很少进行评分。他们没有理由停下来去点一颗星。你的 4.7 分平均分是建立在那些带有强烈观点的人的声音之上的,而不是中位数的体验。

关于多轮对话系统的研究发现,在对话后期,超过一半的用户表达中会出现隐式反馈信号,而显式评分仅在极小比例的互动中被收集。行为数据更丰富、频率更高,且是自动生成的。你已经在为产生这些数据的基础设施付费了。

值得收集的行为信号

并非所有隐式信号都具有同样的参考价值。有些需要结合上下文才能正确解读。以下是大致按可靠性排序的信号分类:

高置信度负面信号:

  • 立即撤销(在接受建议后的几秒钟内按下 Ctrl+Z)
  • 在同一会话内重新表述查询(用户因为上次回答失败而在重试)
  • 未完成任务即放弃会话(在工作流中途离开)
  • 直接覆盖完整输出,而不是针对性的编辑

高置信度正面信号:

  • 无需修改或后续操作直接进入下一个任务
  • 将输出复制到下游工具或分享到外部
  • 生成输出后,提出基于该输出的后续问题

Context-dependent signals:

  • 接受的响应长度 vs. 截断长度(如果用户总是滚动并继续阅读,则长度适中;如果他们总是在第 10 行停止阅读,则长度不当)
  • 对 AI 生成内容的编辑率(需要基准线:法律合同 30% 的编辑率是正常的;而写作助手生成的客户邮件同样的编辑率则过高)
  • 对话持续性(用户回应 vs. 保持沉默)

对话系统的一项研究发现:一个简单的基于长度的隐式信号 —— 用户生成的响应是否超过阈值长度 —— 与基准模型相比,带来了 12 个点的胜率提升。对于一个单一且低成本收集的行为指标来说,这是一个非常有力的信号。

构建从行为到评估数据集的流水线

目标是将行为信号转化为带标签的数据对:(input, output, quality_label),你可以用它来构建评估数据集、微调奖励模型或识别退化案例。以下是一个实用的流水线。

第一步:对交互层进行监测 (Instrument the interaction layer)

标准的观测性指标 —— 延迟、错误率、Token 数量 —— 是不够的。你需要交互层面的观测能力:

  • 记录会话 ID 和对话轮次序列,而不只是单个请求
  • 记录编辑事件以及相对于输出生成的时间戳
  • 捕获导航事件(用户是离开了产品,还是进入了更深层,或者是重复了某个步骤?)
  • 记录查询重构(同一会话、相似的语义意图、新的措辞 = 重试信号)

你不需要捕获具体内容。你需要捕获结构:响应后发生了什么,发生了多久,以及朝哪个方向发展。

第二步:根据产品语境定义行为标签

行为信号在不同的语境下意义不同。对代码建议的立即编辑可能意味着模型错了,也可能意味着开发者想加入自己的定制。你必须为你特定的产品定义每个信号的含义。

一个有用的练习:对于你监测的每个行为信号,写出可能产生该信号的两到三种用户意图解释,并设计日志模式(schema)以便尽可能地区分它们。如果你无法区分,请将该信号视为弱信号而非强信号。

第三步:策略性采样,而非随机采样

你不需要收集每个会话的标签。高价值的案例在于边缘地带:

  • 用户表现出混合信号的会话(部分编辑,然后继续)
  • 高重试会话(针对同一底层任务进行了 3 次以上的重构)
  • 与历史基准不匹配的新交互模式
  • 在其他指标上模型表现最差的用户群体的会话

从分布的尾部采样可以让你发现最可能暴露模型弱点的案例。随机采样只会给你带来大量确定的成功案例,这对提高评估覆盖率毫无帮助。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates