跳到主要内容

欧盟《人工智能法》合规是工程问题:你必须交付的审计追踪

· 阅读需 11 分钟
Tian Pan
Software Engineer

2026年,大多数构建AI系统的工程团队都知道欧盟《人工智能法》的存在。但很少有人真正理解它要求他们构建什么。该法规对高风险AI系统的核心义务——自动事件日志记录、人工监督机制、风险管理系统、技术文档——并非法律团队能在截止日期前生产的政策文件。它们是工程交付物,需要在项目启动时做出架构决策,而非在合规审计前的最后一个冲刺阶段。

硬性截止日期是2026年8月2日。在欧盟部署的高风险AI系统必须完全符合第9至15条的规定。在就业筛选、信用评分、福利分配、医疗优先级、生物特征识别或关键基础设施管理领域部署AI的组织均在适用范围内。如果你的系统在这些领域做出实质性影响欧盟居民的决策,它几乎肯定属于高风险。而现实的合规实施周期需要8至14个月——这意味着如果你还没有开始,已经落后了。

"高风险"在架构上意味着什么

欧盟《人工智能法》附件三定义了高风险类别:用于招聘和人力资源决策、金融风险评估、基本服务获取、执法、边境管控和教育的系统。这一框架很重要,因为它与AI的复杂程度无关——一个决定谁能获得面试机会的基于规则的系统是高风险的,而一个为照片应用程序分类图像的深度学习模型则不是。

一旦系统被认定为高风险,五类技术义务就会附加其上:风险管理系统(第9条)、数据治理要求(第10条)、技术文档(第11条)、自动记录保存(第12条)和人工监督能力(第14条)。这些并非独立的检查项。它们构成一个整合的架构要求——没有可解释性的日志系统无法满足第14条;没有日志的可解释性无法满足第12条;如果没有第10条对训练数据要求的数据治理,这两者都没有意义。

使这一切成为工程优先而非合规优先的原因在于,这五项要求描述的是运行中系统的属性,而非文档。法规要求你技术上允许自动日志记录,要求系统在技术设计上具备人工监督能力。一份声称"我们记录日志"和"人工可以干预"的政策文件无法满足这些条款。一个实际上以正确方式记录日志并实际公开监督机制的部署系统才能满足。

法规实际要求的日志架构

第12条规定,高风险系统必须"在技术上允许在系统整个生命周期内自动记录事件(日志)"。这是法规中完整的技术规范——规定了记录什么,而非如何记录。这个差距正是工程发挥作用的地方。

标准应用日志无法满足监管证据要求。问题在于篡改。合规审计员要求你证明系统在过去某个特定日期正常运行时,需要信任日志未被修改。标准数据库记录可以无声地更新。要使日志具有法律约束力,需要加密签名——每个日志条目都经过哈希并使用仅追加审计链签名,配有时间戳权威签名以允许外部验证。这并不难构建,但无法事后补救。你无法回溯并签署在没有此基础设施的情况下记录的事件。

必须捕获的内容模式也不简单。一条合规事件记录需要同时捕获几类信息:

  • 决策本身:模型版本、预测输出、置信度分数,以及该时刻有效的决策阈值——不是今天的阈值,而是此预测运行时配置的阈值。
  • 输入内容:使用了哪些特征,查询了哪些数据源,参考了哪些数据库(对于生物特征系统至关重要,根据第19条必须明确记录此内容)。
  • 可解释性数据:足以让人类审阅者理解系统为何做出该预测的决策贡献因素。这意味着需要对每个预测运行可解释性流水线(SHAP值、LIME或同等工具)并将输出存储在日志条目中。
  • 预测时的系统状态:是否检测到漂移,此时的公平性指标是什么,是否触发了异常标志。
  • 人工监督事件:任何覆盖、修改或停止操作,以及操作员ID、时间戳和声明的理由。

双时态模式——同时捕获交易时间(事件发生时)和有效时间(数据准确的时期)——能够实现监管重建:"展示该系统在特定日期当时的状态。"这是审计员会提出的查询类型。标准事件日志无法可靠地回答这一问题。

保留要求最少6个月,如果特定行业法规有更高要求,则以该要求为准。医疗和金融服务有自己的保留期限,优先于该法规的基准。

人工监督是设计约束,而非检查项

第14条要求高风险系统在技术上"设计和开发"时内置人工监督能力。这一措辞很精确:设计和开发,而非打补丁和配置。监督系统必须使指定人员能够监控预测、覆盖决策并停止系统——无需IT介入、审批流程或系统停机。

法规意图所暗示的运营目标类似于5分钟最大响应时间:一名称职的监督官员应能在发现问题后5分钟内停止高风险系统,而无需升级到工程团队。这意味着监督界面需要为运营使用而构建,而非工程检查。停止机制必须对非技术操作员可用。当系统停止时,待处理决策必须自动路由到人工处理。

这一要求派生出三个层级的监督能力。第一是提供真实信息的监控:在每个AI辅助决策旁边显示置信度分数、关键贡献因素、对类似历史案例的表现以及分布外标志。第二是干预:一个可见的、始终可访问的覆盖机制,自动记录覆盖操作,附带操作员ID、时间戳和理由。第三是停止:一种无需工程访问权限即可由指定监督官员使用的机制,并完整记录停止事件的上下文。

值得注意的是,法规并不要求预先批准每个决策。一个人类在每个AI输出执行前盖章的系统在技术上满足了字面要求,但违背了使用AI的目的。设计目标是真正的监督能力——拥有信息、权限和工具来发现并纠正系统性故障的人类——而非瓶颈。

为什么合规事后补救行不通

事后上线合规改造的经济成本高到足以让大多数尝试过的组织最终不得不重建系统的重要部分。但更深层的问题是,某些要求在物理上不可能事后满足。

日志基础设施建立之前的日志记录根本不存在。第12条要求"在系统整个生命周期内"记录日志。一个在没有合规日志记录的情况下上线的系统,从第一天起就有审计追踪空白。没有办法重建该时期系统所做的事情。对于监管审计,这一空白是不合规的证据,而不仅仅是数据缺失。

训练数据的数据治理文档也面临同样的问题。第10条要求提供训练数据质量的证据:来源、人口代表性、质量验证、偏差检测。事后生成此文档意味着从记忆和部分记录中生成,通常无法证明法规要求证明的内容。工程师换岗了,数据管道变了,原始来源可能已被删除。如果文档没有在系统构建过程中创建,证据记录就是不完整的。

第9条下的风险管理系统要求明确是持续和迭代的——它必须在系统整个生命周期中运行,从设计阶段开始。空降进来记录生产系统的合规团队无法生产第9条所要求的设计阶段风险识别记录。他们不在设计现场;这些文件不存在。

实际后果:从生产系统开始合规工作的组织通常估计,在绿地合规所需的32至56周基础上额外增加8周。如果你想从2026年4月开始赶上8月的截止日期,这道数学题做不通。

使合规可操作的技术模式

好消息是,这些要求收敛到一组业界熟知的工程模式。

持续风险监控即服务:与其进行定期风险评估,不如构建自动化仪表板,实时跟踪按人口群体分类的性能下降、概念漂移和公平性指标。第9条的"持续、迭代"风险管理流程直接对应MLOps基础设施——区别在于输出需要反馈到有文档记录的风险记录中,而不仅仅是运营仪表板。

自动化文档生成:附件四要求包含设计规范、模型参数、训练数据元数据、测试结果和性能指标的大量技术文档。从代码生成这些文档(而非手动编写)意味着文档与系统保持同步,并可与代码库一起在git中进行版本控制。与实际部署系统不一致的文档是一个合规负债。

可解释性即基础设施:第14条的监督要求意味着可解释性流水线需要与预测同步运行,并将输出存储在审计日志中。这与按需运行SHAP值进行调试的架构不同。它是一个生产服务,有延迟和存储要求,需要在系统上线前规划。

配置驱动的监督阈值:人工审查触发器——置信度分数下限、分布外检测阈值、人口差异警报——应该是可配置参数,而非硬编码值。风险状况会变化;上线时合适的阈值可能随着系统积累生产数据而需要调整。将其构建为配置意味着监督系统可以无需重新部署地演进。

API清单和数据血缘:高风险系统调用的每个外部AI服务都必须有清单,包含有文档记录的数据流(发送什么,接收什么,该端点的风险分类是什么)。每个训练数据版本都必须通过其管道追溯到原始来源。这些不是特殊要求——它们是标准的数据治理卫生措施——但需要从一开始就融入开发工作流,而不是事后从记忆中整理。

临近截止日期的团队的起点

对于2026年构建新高风险系统的团队,合规架构应该是初始设计的一部分。这意味着在训练第一个模型之前就规定好日志基础设施和可解释性流水线;在构建数据管道时编写数据治理文档;与主应用程序同步设计人工监督界面;在上线前建立风险管理流程,并与上市后监控建立明确的钩子。

对于已有系统临近截止日期的团队,通常杠杆率最高的起点是日志基础设施——因为它影响未来的证据记录,因为改造它会揭示其他所有需要改变的地方。对第12条是否满足的诚实评估通常会发现数据治理文档、可解释性可用性和监督机制可访问性方面的差距。

欧盟《人工智能法》对高风险AI的要求并非新颖的工程挑战。防篡改日志记录、可解释性流水线、人工覆盖机制、漂移监控——这些都是工程团队以前构建过的东西。法规增加的是将其视为一级系统要求而非运营好处的强制要求。这不是一个法律问题,而是一个工程文化问题。能够满足2026年8月截止日期的团队是那些几个月前就开始将合规视为交付要求的团队。

Let's stay in touch and Follow me for more thoughts and updates