欧盟 AI 法案现已成为你的工程待办事项
大多数工程团队是通过在截止日期前三周收到的一封法律邮件才了解到 GDPR 的。欧盟 AI 法案(EU AI Act)正在重演这一模式,而 2026 年 8 月 2 日针对高风险 AI 系统的强制执行日期已经非常临近,“以后再处理合规问题”已不再是一个可选项。GDPR 与 AI 法案的区别在于,GDPR 的合规大多是关于数据处理政策的。而 AI 法案的合规要求构建新的系统组件——这些组件在大多数生产环境中的 AI 系统中尚不存在。
法规中所谓的“人类监督义务”和“审计追踪要求”,转化为工程语言,就是一个仪表盘、一个事件日志和一个数据血缘系统。本文将欧盟 AI 法案视为一份工程规范而非法律文件,并逐步介绍你实际需要构建的内容。
在构建任何东西之前先了解风险分类
欧盟 AI 法案将 AI 系统分为四个风险层级 ,你系统所属的层级决定了你需要投入多少工程量。无论向哪个方向搞错代价都是高昂的——过度工程化一个极小风险系统会浪费数月时间,而错误地将高风险系统分类则会让你面临高达 1500 万欧元或全球年度总营业额 3% 的罚款。
被禁止的 AI(自 2025 年 2 月 2 日起强制执行):这八个类别被完全禁止。它们包括社交评分系统、基于画像的预测性警务、公共场所的实时远程生物识别,以及工作场所或学校的情绪识别。如果你正在构建这些类别中的任何东西,答案不是调整架构——而是停止开发。
高风险 AI(2026 年 8 月 2 日全面强制执行):这是大部分工程量所在的地方。附件 III(Annex III)定义了八类高风险系统:生物识别、关键基础设施安全组件、教育和职业培训系统(录取、考试评分)、就业工具(简历筛选、绩效评估)、获取基本服务(信用评分、保险、医疗保健资格)、执法工具、移民和边境管制系统以及司法管理。如果你的系统在这些领域的决策中产生重大影响,那么你构建的就是一个高风险 AI 系统。
关键词是“产生重大影响”。一个将 500 名求职者筛选至 20 人供人工审核的工具就是在做一个关键性的过滤决策,即使技术上最后由人工批准最终聘用。法规将此类行为视为高风险,无论最后是否由人工签字确认。
有限风险 AI:聊天机器人和对话式界面、深度伪造以及算法内容推荐系统属于这一类。其主要义务是透明度披露——必须让用户知道他们正在与 AI 交互。这是一个界面设计要求,而不是架构重组。
极小风险 AI:大多数生产环境中的 AI 系统——垃圾邮件过滤器、产品推荐引擎、不涉及权利影响的搜索算法——都属于这一类。无需承 担特定义务。
工程师首先要问的分类问题不是“我们的系统是否使用了 AI?”,而是“我们系统的输出是否会做出影响人们获得就业、信贷、教育、医疗保健或司法公正的决策?”如果是,你构建的就是一个高风险系统。
真正核心的三项工程要求
对于高风险 AI 系统,AI 法案在数据治理(第 10 条)、审计追踪日志(第 12 条)和人类监督(第 14 条)方面提出了要求。这些要求对应于三个不同的工程工作流。
审计追踪:作为一等公民系统组件的事件日志
第 12 条要求高风险 AI 系统在运行过程中“自动记录”事件。这是技术性语言,而非愿景式语言——记录必须在系统内部发生,而不是作为一个手动或周期性的过程。
符合合规要求的审计追踪至少应包含:
- 交互时间戳(开始和结束,带有时区)
- 输入数据特征或引用(不一定是原始数据——哈希或指针对于大多数系统来说已经足够)
- 决策时使用的模型版本和修订版
- 输出评分、概率或建议
- 任何人类审核事件(谁进行了审核,采取了什么行动)
- 任何系统覆盖或修正
存储期限至少为六个月,但在实践中,大多数团队应根据其行业现有的数据保留要求计划更长的存储时间。
最直接的实现方式是在系统边界进行事件驱动的日志记录。流经 AI 决策层的每个请求都会发出一个结构化事件——发送 JSON 到流式管道(Kafka 效果很好,但任何持久化队列都可以)——并写入可查询的存储中。这是将标准的运营日志实践提升到了合规要求的高度。
AI 法案日志与普通应用日志的区别在于,你需要在“决策层级”记录,而不仅仅是“请求层级”。一条显示“今天处理了 10,000 个请求”的应用日志并不满足第 12 条的要求。你需要为每一个单独的决策保留记录,以便在受影响的人员或监管机构询问特定结果产生的原因时进行检索。
将此功能改造到现有系统中是痛苦的,因为它需要对模型推理路径进行插桩,而不仅仅是 API 层。应将其构建到 ML 服务基础设施中,而不是作为中间件事后补加。
数据治理:训练前的血缘与质量记录
第 10 条要求必须对训练、验证和测试数据集进行记录、具有代表性、经过偏见检查,并进行正式的数据治理。这相当于数据工程领域的“审计追踪”要求。
一份合规数据集的最低限度记录包包括:
- 数据来源(Provenance):数据从哪里来?产生了它的采集过程是什么?
- 准备流水线:每一个清洗、转换和标注步骤
