跳到主要内容

你的 AI 披露在第三轮就消失了,没人察觉,直到监管者发现

· 阅读需 12 分钟
Tian Pan
Software Engineer

你的法务团队花了四次会议来打磨那一句披露的措辞。工程团队把它放到了系统提示词的最顶端。QA 确认每个会话的第一轮都会出现。三个月后,一位监管者转发了一份对话记录:这是一段处理投诉的对话的第十四轮,整整一小时围绕一笔退款纠纷给出实质性建议,而在那十四轮里,用户从未看到「我是一个 AI」这几个字。你那份通过单轮合规评审批准的披露,在结构上根本无法在真正需要它的对话里存活下来。

这就是「披露衰减」(disclosure decay),它是 2025–2026 那波聊天机器人监管浪潮没有设计去捕捉、你的 QA 流程也没有配置去测试的多轮 Agent 失败模式。欧盟 AI 法案第 50 条的义务将在 2026 年 8 月 2 日正式可强制执行,罚款最高可达 3500 万欧元或全球营业额的 7%。加州的 SB 243 已于 2026 年 1 月 1 日生效,附带私人诉讼权,消费者可以直接起诉,每次违规最低赔偿 1000 美元。华盛顿州要求重复披露,对未成年人采取每小时一次的频率。这些监管体系没有一个是在假设「披露会在第三次工具调用后悄无声息地从会话里掉出去」的前提下写出来的——但这就是你的运行时此刻正在做的事,在每一个长时间运行的对话里,正在生产环境中发生。

这个缺口是结构性的,不是偶然的。批准你提示词的合规评审看的是一份第一轮的对话记录。而真正服务用户的运行时跑的是一个带工具调用、上下文压缩和对话摘要的 Agent 循环。第一轮的披露是一行可见的文本。从第二轮到第十三轮是工具调用回合,模型完全没有产生面向用户的文本——它在读邮件、查账本、调用内部 API,这些都不会浮现到用户面前。到第十四轮,原始的系统提示词已经在九千个 token 之前,最近的对话已经被摘要过,模型正在基于一个会话的表征作答,而这个表征里「我是一个 AI」已经不再是一项当下的义务。它只是过去发生过的一个事实,被摘要器扔掉了,因为它看起来不像是值得保留的状态。

单轮合规评审看不见多轮失败

绝大多数披露合规,是按照「单次问答型聊天机器人交互」的心智模型来规范、评审和批准的。用户输入一个问题,模型给出回答,回答要么包含披露,要么没有,然后发布上线。这个模型,正是每一个监管模板工具、每一份内部 QA 评分表、每一张律所清单至今仍隐含假设的模型。当产品就是「问 AI 一个问题,拿回文本」时,它运转得很好。

但产品一旦变成 Agent,这个心智模型就崩溃了。一个 Agent 会话不是一连串的问答对。它是一个长时间运行的交互,用户输入一些东西,模型花十、二十甚至五十轮去调用工具——其中没有任何一轮会产生用户可见的输出——然后才最终给出一段话。法务在意的合规凭证是面向用户的可见文本。而 Agent 循环只会断断续续地产出面向用户的文本,那条被界定为「每一次交互」的披露义务,其实被隐含地界定成了「每一个模型对用户说话的回合」,而在 Agent 循环里,这只是所有回合的一个很小、很不规则的子集。

关于长上下文行为的研究让画面更糟糕。一项针对 Agent 约束遵循度的实测研究发现,指令在第五轮时被遵循的概率是 73%,到第十六轮就降到 33%。这不是某个特定模型的 bug,而是当一条指令位于第零位、而上下文比它发出时膨胀了一百倍时,注意力衰减的自然结果。你的披露在和后到的一切信息争夺注意力,而数学并不站在你这边。

为什么压缩最先吃掉披露

第二种机制更糟糕,因为它不是逐步衰减,而是显式删除。每一个支持长会话的 Agent 运行时都会做某种形式的上下文压缩——把更早的轮次摘要掉,以适配模型的上下文窗口或者控制成本。摘要器是一次独立的模型运行,有自己的提示词,其优化目标大致是「为下游回合保留与任务相关的状态」。

而一条披露不是与任务相关的状态。从摘要器的视角看,「模型在第一轮说了『我是一个 AI』」恰恰是那种会被压缩掉的客套话,让位于关于用户账户的事实、纠纷的细节、目前为止的工具输出。摘要器在认真做它的工作。披露成了一项法务评审里根本没人知道存在的优化的连带损失。

同样的机制也适用于对话历史截断。当一段长会话被恢复时,当用户第二天早上回来时,当会话在设备或入口之间切换时,运行时会把一个新的上下文从存储的摘要加上最近的轮次里拼起来。原始的系统提示词通常会被重新注入,但是用户实际看到的可见披露——监管者真正关心的那个凭证——只是某一轮里生成的一行文字,而那一轮可能根本不在新的上下文里。用户在打招呼时看到的合规底栏,挺不过会话恢复,因为会话恢复是一个运行时概念,而披露是按「第一轮义务」规范的。

披露衰减是一类监管失败,不是一个 bug

一个有用的思考方式,是不再把披露衰减视为质量问题,而开始把它视为一类带有自身分类法的监管失败。至少有五种不同的失败模式,每一种都有不同的触发条件和不同的修复方法。

  • 工具调用静默。 模型只对工具说话、不对用户说话的回合。披露义务在这里没法很自然地落地,因为没有面向用户的输出可以挂载。
  • 注意力漂移。 在长会话中,系统提示词里的披露虽然仍在上下文中,但已经没有足够的权重去真正塑造生成。
  • 摘要坍缩。 压缩步骤把披露从模型的工作表征里完全丢掉,因为没有人告诉摘要器它是承重的。
  • 会话恢复。 跨天或跨设备的对话,运行时在重新拼装上下文时,没有重新展示用户最初看到的披露。
  • 话题跨界。 在非监管领域开始、漂移到监管领域的对话——退款聊天演变为医疗建议,日程聊天演变为法律级建议——打招呼时足够的披露,已经无法覆盖对话现在变成的样子。

这些都是真实的生产模式,每一种都违反了目前所有披露体制的精神,每一种都看不见于那场批准了提示词模板的合规评审。命名它们,是把「我们在系统提示词里放了一条披露」转变成「你真的可以审计」的第一步。

把披露复现当作一等公民的运行时关注

修复方法是不再把披露当作提示词的属性,而开始把它当作运行时的属性。提示词无法强制自己的复现。运行时可以。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates