你的 AI 披露在第三轮就消失了，没人察觉，直到监管者发现

2026年5月23日 · 阅读需 12 分钟

Software Engineer

你的法务团队花了四次会议来打磨那一句披露的措辞。工程团队把它放到了系统提示词的最顶端。QA 确认每个会话的第一轮都会出现。三个月后，一位监管者转发了一份对话记录：这是一段处理投诉的对话的第十四轮，整整一小时围绕一笔退款纠纷给出实质性建议，而在那十四轮里，用户从未看到「我是一个 AI」这几个字。你那份通过单轮合规评审批准的披露，在结构上根本无法在真正需要它的对话里存活下来。

这就是「披露衰减」（disclosure decay），它是 2025–2026 那波聊天机器人监管浪潮没有设计去捕捉、你的 QA 流程也没有配置去测试的多轮 Agent 失败模式。欧盟 AI 法案第 50 条的义务将在 2026 年 8 月 2 日正式可强制执行，罚款最高可达 3500 万欧元或全球营业额的 7%。加州的 SB 243 已于 2026 年 1 月 1 日生效，附带私人诉讼权，消费者可以直接起诉，每次违规最低赔偿 1000 美元。华盛顿州要求重复披露，对未成年人采取每小时一次的频率。这些监管体系没有一个是在假设「披露会在第三次工具调用后悄无声息地从会话里掉出去」的前提下写出来的——但这就是你的运行时此刻正在做的事，在每一个长时间运行的对话里，正在生产环境中发生。

这个缺口是结构性的，不是偶然的。批准你提示词的合规评审看的是一份第一轮的对话记录。而真正服务用户的运行时跑的是一个带工具调用、上下文压缩和对话摘要的 Agent 循环。第一轮的披露是一行可见的文本。从第二轮到第十三轮是工具调用回合，模型完全没有产生面向用户的文本——它在读邮件、查账本、调用内部 API，这些都不会浮现到用户面前。到第十四轮，原始的系统提示词已经在九千个 token 之前，最近的对话已经被摘要过，模型正在基于一个会话的表征作答，而这个表征里「我是一个 AI」已经不再是一项当下的义务。它只是过去发生过的一个事实，被摘要器扔掉了，因为它看起来不像是值得保留的状态。

单轮合规评审看不见多轮失败

绝大多数披露合规，是按照「单次问答型聊天机器人交互」的心智模型来规范、评审和批准的。用户输入一个问题，模型给出回答，回答要么包含披露，要么没有，然后发布上线。这个模型，正是每一个监管模板工具、每一份内部 QA 评分表、每一张律所清单至今仍隐含假设的模型。当产品就是「问 AI 一个问题，拿回文本」时，它运转得很好。

但产品一旦变成 Agent，这个心智模型就崩溃了。一个 Agent 会话不是一连串的问答对。它是一个长时间运行的交互，用户输入一些东西，模型花十、二十甚至五十轮去调用工具——其中没有任何一轮会产生用户可见的输出——然后才最终给出一段话。法务在意的合规凭证是面向用户的可见文本。而 Agent 循环只会断断续续地产出面向用户的文本，那条被界定为「每一次交互」的披露义务，其实被隐含地界定成了「每一个模型对用户说话的回合」，而在 Agent 循环里，这只是所有回合的一个很小、很不规则的子集。

关于长上下文行为的研究让画面更糟糕。一项针对 Agent 约束遵循度的实测研究发现，指令在第五轮时被遵循的概率是 73%，到第十六轮就降到 33%。这不是某个特定模型的 bug，而是当一条指令位于第零位、而上下文比它发出时膨胀了一百倍时，注意力衰减的自然结果。你的披露在和后到的一切信息争夺注意力，而数学并不站在你这边。

为什么压缩最先吃掉披露

第二种机制更糟糕，因为它不是逐步衰减，而是显式删除。每一个支持长会话的 Agent 运行时都会做某种形式的上下文压缩——把更早的轮次摘要掉，以适配模型的上下文窗口或者控制成本。摘要器是一次独立的模型运行，有自己的提示词，其优化目标大致是「为下游回合保留与任务相关的状态」。

而一条披露不是与任务相关的状态。从摘要器的视角看，「模型在第一轮说了『我是一个 AI』」恰恰是那种会被压缩掉的客套话，让位于关于用户账户的事实、纠纷的细节、目前为止的工具输出。摘要器在认真做它的工作。披露成了一项法务评审里根本没人知道存在的优化的连带损失。

同样的机制也适用于对话历史截断。当一段长会话被恢复时，当用户第二天早上回来时，当会话在设备或入口之间切换时，运行时会把一个新的上下文从存储的摘要加上最近的轮次里拼起来。原始的系统提示词通常会被重新注入，但是用户实际看到的可见披露——监管者真正关心的那个凭证——只是某一轮里生成的一行文字，而那一轮可能根本不在新的上下文里。用户在打招呼时看到的合规底栏，挺不过会话恢复，因为会话恢复是一个运行时概念，而披露是按「第一轮义务」规范的。

披露衰减是一类监管失败，不是一个 bug

一个有用的思考方式，是不再把披露衰减视为质量问题，而开始把它视为一类带有自身分类法的监管失败。至少有五种不同的失败模式，每一种都有不同的触发条件和不同的修复方法。

工具调用静默。 模型只对工具说话、不对用户说话的回合。披露义务在这里没法很自然地落地，因为没有面向用户的输出可以挂载。
注意力漂移。 在长会话中，系统提示词里的披露虽然仍在上下文中，但已经没有足够的权重去真正塑造生成。
摘要坍缩。 压缩步骤把披露从模型的工作表征里完全丢掉，因为没有人告诉摘要器它是承重的。
会话恢复。 跨天或跨设备的对话，运行时在重新拼装上下文时，没有重新展示用户最初看到的披露。
话题跨界。 在非监管领域开始、漂移到监管领域的对话——退款聊天演变为医疗建议，日程聊天演变为法律级建议——打招呼时足够的披露，已经无法覆盖对话现在变成的样子。

这些都是真实的生产模式，每一种都违反了目前所有披露体制的精神，每一种都看不见于那场批准了提示词模板的合规评审。命名它们，是把「我们在系统提示词里放了一条披露」转变成「你真的可以审计」的第一步。

把披露复现当作一等公民的运行时关注

修复方法是不再把披露当作提示词的属性，而开始把它当作运行时的属性。提示词无法强制自己的复现。运行时可以。

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

你的 AI 披露在第三轮就消失了，没人察觉，直到监管者发现

单轮合规评审看不见多轮失败

为什么压缩最先吃掉披露

披露衰减是一类监管失败，不是一个 bug

把披露复现当作一等公民的运行时关注

Recommended Reading

关于 Tian Pan

单轮合规评审看不见多轮失败​

为什么压缩最先吃掉披露​

披露衰减是一类监管失败，不是一个 bug​

把披露复现当作一等公民的运行时关注​

Recommended Reading

关于 Tian Pan

单轮合规评审看不见多轮失败

为什么压缩最先吃掉披露

披露衰减是一类监管失败，不是一个 bug

把披露复现当作一等公民的运行时关注