跳到主要内容

欧盟 AI 法案现已成为你的工程待办事项

· 阅读需 14 分钟
Tian Pan
Software Engineer

大多数工程团队是通过在截止日期前三周收到的一封法律邮件才了解到 GDPR 的。欧盟 AI 法案(EU AI Act)正在重演这一模式,而 2026 年 8 月 2 日针对高风险 AI 系统的强制执行日期已经非常临近,“以后再处理合规问题”已不再是一个可选项。GDPR 与 AI 法案的区别在于,GDPR 的合规大多是关于数据处理政策的。而 AI 法案的合规要求构建新的系统组件——这些组件在大多数生产环境中的 AI 系统中尚不存在。

法规中所谓的“人类监督义务”和“审计追踪要求”,转化为工程语言,就是一个仪表盘、一个事件日志和一个数据血缘系统。本文将欧盟 AI 法案视为一份工程规范而非法律文件,并逐步介绍你实际需要构建的内容。

在构建任何东西之前先了解风险分类

欧盟 AI 法案将 AI 系统分为四个风险层级,你系统所属的层级决定了你需要投入多少工程量。无论向哪个方向搞错代价都是高昂的——过度工程化一个极小风险系统会浪费数月时间,而错误地将高风险系统分类则会让你面临高达 1500 万欧元或全球年度总营业额 3% 的罚款。

被禁止的 AI(自 2025 年 2 月 2 日起强制执行):这八个类别被完全禁止。它们包括社交评分系统、基于画像的预测性警务、公共场所的实时远程生物识别,以及工作场所或学校的情绪识别。如果你正在构建这些类别中的任何东西,答案不是调整架构——而是停止开发。

高风险 AI(2026 年 8 月 2 日全面强制执行):这是大部分工程量所在的地方。附件 III(Annex III)定义了八类高风险系统:生物识别、关键基础设施安全组件、教育和职业培训系统(录取、考试评分)、就业工具(简历筛选、绩效评估)、获取基本服务(信用评分、保险、医疗保健资格)、执法工具、移民和边境管制系统以及司法管理。如果你的系统在这些领域的决策中产生重大影响,那么你构建的就是一个高风险 AI 系统。

关键词是“产生重大影响”。一个将 500 名求职者筛选至 20 人供人工审核的工具就是在做一个关键性的过滤决策,即使技术上最后由人工批准最终聘用。法规将此类行为视为高风险,无论最后是否由人工签字确认。

有限风险 AI:聊天机器人和对话式界面、深度伪造以及算法内容推荐系统属于这一类。其主要义务是透明度披露——必须让用户知道他们正在与 AI 交互。这是一个界面设计要求,而不是架构重组。

极小风险 AI:大多数生产环境中的 AI 系统——垃圾邮件过滤器、产品推荐引擎、不涉及权利影响的搜索算法——都属于这一类。无需承担特定义务。

工程师首先要问的分类问题不是“我们的系统是否使用了 AI?”,而是“我们系统的输出是否会做出影响人们获得就业、信贷、教育、医疗保健或司法公正的决策?”如果是,你构建的就是一个高风险系统。

真正核心的三项工程要求

对于高风险 AI 系统,AI 法案在数据治理(第 10 条)、审计追踪日志(第 12 条)和人类监督(第 14 条)方面提出了要求。这些要求对应于三个不同的工程工作流。

审计追踪:作为一等公民系统组件的事件日志

第 12 条要求高风险 AI 系统在运行过程中“自动记录”事件。这是技术性语言,而非愿景式语言——记录必须在系统内部发生,而不是作为一个手动或周期性的过程。

符合合规要求的审计追踪至少应包含:

  • 交互时间戳(开始和结束,带有时区)
  • 输入数据特征或引用(不一定是原始数据——哈希或指针对于大多数系统来说已经足够)
  • 决策时使用的模型版本和修订版
  • 输出评分、概率或建议
  • 任何人类审核事件(谁进行了审核,采取了什么行动)
  • 任何系统覆盖或修正

存储期限至少为六个月,但在实践中,大多数团队应根据其行业现有的数据保留要求计划更长的存储时间。

最直接的实现方式是在系统边界进行事件驱动的日志记录。流经 AI 决策层的每个请求都会发出一个结构化事件——发送 JSON 到流式管道(Kafka 效果很好,但任何持久化队列都可以)——并写入可查询的存储中。这是将标准的运营日志实践提升到了合规要求的高度。

AI 法案日志与普通应用日志的区别在于,你需要在“决策层级”记录,而不仅仅是“请求层级”。一条显示“今天处理了 10,000 个请求”的应用日志并不满足第 12 条的要求。你需要为每一个单独的决策保留记录,以便在受影响的人员或监管机构询问特定结果产生的原因时进行检索。

将此功能改造到现有系统中是痛苦的,因为它需要对模型推理路径进行插桩,而不仅仅是 API 层。应将其构建到 ML 服务基础设施中,而不是作为中间件事后补加。

数据治理:训练前的血缘与质量记录

第 10 条要求必须对训练、验证和测试数据集进行记录、具有代表性、经过偏见检查,并进行正式的数据治理。这相当于数据工程领域的“审计追踪”要求。

一份合规数据集的最低限度记录包包括:

  • 数据来源(Provenance):数据从哪里来?产生了它的采集过程是什么?
  • 准备流水线:每一个清洗、转换和标注步骤
  • 代表性评估:数据集是否充分代表了系统将影响的所有人群?是否覆盖了地理、人口统计和语境上的边缘情况?
  • 偏见分析:识别出了哪些偏见?采取了哪些缓解措施?
  • 质量指标:错误率、完整性、类别分布、陈旧度阈值

实施的关键点在于,这些文档必须在训练之前生成,而不是在事后重建。一个在六个月前使用未记录数据训练的系统将处于艰难的合规境地——其数据血缘(Data Lineage)已不再以可检索的形式存在。

对于在现代机器学习基础设施上运行的团队来说,这可以自然地映射到实验追踪工具上。如果你已经在使用 MLflow、Weights & Biases 或类似工具,合规文档就存在于你的实验追踪系统中。如果你还没有使用,现在就需要开始。数据集版本控制系统(如 DVC、Delta Lake,或者仅仅是一个带有版本清单、结构良好的对象存储层级)可以满足血缘记录的要求。

人类监督:界面问题,而非流程问题

第 14 条要求高风险 AI 系统的设计必须使“自然人能够有效地监督”运行中的系统。该法规规定了监督必须实现的三个目标:能够理解系统的能力和局限性、能够检测异常和故障、能够停止或撤销系统输出。

这可以转化为三种不同的界面类型:

针对高利害输出的决策队列:对于单次决策具有重大影响的系统(如招聘决策、贷款拒绝、福利资格确认),在输出生效前,通过审批界面进行路由。界面展示 AI 的建议、驱动该建议的输入特征以及置信度分数。由人类进行审核并批准、拒绝或升级。这就是“人在回路”(Human-in-the-loop):AI 提供辅助,但在没有明确的人类批准前不采取行动。

针对运行监督的监控仪表板:对于大批量运行且无法进行逐一审核的系统,应构建能够反映分布偏移、异常率和性能下降信号的仪表板。一个每天处理一万份申请的信用评分系统不需要人类审核每一份申请,但工程师或风控官员应该观察该模型在不同人口细分群体中的批准率是否偏离基准。这就是“人在旁路”(Human-on-the-loop):人类进行监控并可以干预,但不批准每一项决策。

针对模型治理的定期审查基础设施:对于所有高风险系统,构建能够支持季度模型行为审查、重新训练触发和文档更新的工具。这包括自动化的模型性能报告、将边缘情况提交给人工审核的机制,以及将每个模型版本与其训练数据文档绑定的版本控制模型注册表。

工程上常见的失败模式是将监督视为一个 UI 功能,而不是系统设计要求。一个标记为“人类监督”并链接到模型卡(Model Card)PDF 文件的合规复选框并不满足第 14 条的要求。法规要求监督必须是有效的——这意味着工具必须存在、被使用,并且背后有组织授权的支持。

实践中行之有效的三种合规模式

大多数工程团队不应尝试同时处理所有三个工作流,而应按照循序渐进的顺序来安排合规工作。

从数据治理和记录开始。 这是其他一切工作的基础,它对新基础设施的需求最少(主要是实验追踪和版本控制),并且它为审计追踪所需的数据质量工作扫清了障碍。如果你正在训练一个新模型,现在正是建立记录规范的最佳时机。如果你已有模型在生产环境中运行,请立即开始血缘重建过程——其中一部分可以从 git 历史、训练脚本和数据管道日志中恢复。

将审计追踪基础设施作为平台能力进行构建。 不要为每个高风险系统单独实现日志记录。在你的机器学习推理/服务基础设施中构建一个所有模型都要经过的合规日志层。这意味着需要一个用于决策记录的事件架构(Schema)、一个具有“至少一次交付”保证的流式处理管道、具有适当保留策略的持久化存储,以及用于检索的查询界面。这项投入大约需要两到四个工程师周,并且可以分摊到你随后部署的每一个模型中。

将监督界面作为产品工作流来实现。 将监督仪表板和决策队列视为产品功能,而不是合规复选框。指派一名产品经理,编写需求,并像构建任何内部工具一样构建它。一个最小可行版本(MVP)——包括决策队列 UI、带有关键分布指标的监控仪表板和模型性能报告生成器——是一个三到五周的工程项目。它可以随着时间的推移不断扩展。

这种顺序之所以奏效,是因为它遵循了依赖关系。在不知道哪些决策需要记录之前,你无法构建有意义的审计追踪(需要数据治理)。在没有审计追踪数据可供展示之前,你无法构建有意义的监督界面(需要日志基础设施)。顺序构建可以减少重复劳动。

GDPR 合规性已为你奠定的基础

已经完成深入 GDPR 合规工作的团队在满足《AI 法案》的多项要求上已经抢占了先机。GDPR 的数据最小化原则(仅收集必要数据)与第 10 条关于相关性和代表性的要求相重合。GDPR 对自动化决策的解释权与第 14 条的可解释性要求一致。GDPR 的数据留存和删除义务也为审计追踪留存政策提供了参考。

核心区别在于范畴。GDPR 侧重于保护个人数据权利——知情同意、访问、删除、可移植性。《AI 法案》则侧重于防止有害的 AI 决策——偏见、不透明、缺乏人类控制。一个完全符合 GDPR 标准的系统,如果利用合规的个人数据做出了有偏见或不透明的高风险决策,仍可能无法满足《AI 法案》的要求。

实际的整合点在于数据治理文档。GDPR 要求你记录处理了哪些个人数据及其原因。《AI 法案》则要求你记录使用了哪些训练数据,以及你如何评估其偏见。对于使用个人数据的系统来说,这两者有很大重叠。构建一个同时满足这两项要求的数据治理系统是非常值得的。

2026 年 8 月的时间节点并非虚设

芬兰于 2026 年 1 月启用了首个全面运行的国家级《AI 法案》执法机构。其他成员国也正处于指定国家主管当局的不同阶段。欧盟委员会针对通用 AI (GPAI) 模型提供商的执法调整期将于 2026 年 8 月 2 日结束——同一天,高风险 AI 系统的相关要求也将开始全面强制执行。

处罚结构产生了快速行动的非对称激励。对于被禁止的 AI 实践(自 2025 年 2 月起已生效),罚款最高可达 3500 万欧元或全球营业额的 7%。对于高风险 AI 的违规行为(自 2026 年 8 月起执行),罚款最高可达 1500 万欧元或全球营业额的 3%。这些并非监管机构永远不会动用的理论最高罚款——GDPR 的执法过程已经表明,欧洲数据保护机构会对真正的违规行为开出巨额罚单。

这里描述的工程工作——审计追踪日志基础设施、数据治理文档和监督界面——对于一个专注的团队来说需要两到四个月。如果你还没有开始,在 2026 年第二季度启动仍有足够的缓冲期来应对 8 月份的高风险条款合规要求。但等到 6 月份就来不及了。

将合规视为具有截止日期的工程债

最能帮助工程团队取得进展的思路是:将欧盟《AI 法案》合规视为处理其他具有“强制函数”的技术债。这不是可以永久推迟的可选工作。它有明确的截止日期、具体的要求以及未交付的惩罚。

三个工作流——数据治理文档、审计追踪基础设施和人类监督界面——都是正当的工程工作,它们不仅能让系统合规,还能让系统变得更好。审计追踪可以改进调试过程。数据血缘可以提升模型质量。监督仪表盘能在分布偏移演变成产品事故之前将其暴露出来。

那些等待法务团队给出具体要求后再动工的团队将会步履维艰。这项法规足够具体,技术转化也足够清晰,工程团队完全可以阅读相关条款并编写任务 ticket。工作内容是明确的。现在需要的是一个有优先级的待办列表和一份现实的进度表。

这是一个工程问题,而不是法律问题。

References:Let's stay in touch and Follow me for more thoughts and updates