受监管行业的 AI 合规基础设施:大语言模型框架没能提供给你的东西
在受监管行业部署 LLM 的大多数团队都会以惨痛的方式发现他们的合规差距:审计员出现并要求提供特定日期哪个文档影响了某个特定输出的完整日志,而团队却无法给出答案。这并不是因为系统没有记录——它记录了——而是因为 LLM 调用的文本日志并不等同于具有防篡改证据的审计追踪,而 LLM API 的响应主体也不等同于输出溯源(Output Lineage)。
金融、医疗和法律领域不仅仅是消费类软件的“更严格”版本。它们需要通用 LLM 框架从未设计的底层基础设施原语:不可变事件链、单次输出溯源、拒绝处置记录(Refusal Disposition Records)以及结构化可解释性钩子。目前流行的编排框架都没有提供这些开箱即用的功能。本文介绍了这种架构差距,以及如何在不重构整个技术栈的情况下弥补这一差距。
差距在于基础设施,而非配置
将 LLM 产品推向消费者的团队学会了从数据隐私的角度考虑合规性:在数据进入模型前清除个人身份信息 (PII),与你的服务提供商签署商业伙伴协议 (BAA),启用静态加密。这些确实是硬性要求,但在受监管的垂直领域,它们只是入场费,而非终点。
FINRA 第 3110 号规则要求金融机构了解 AI 的输出是如何得出的,以及它们是否符合监管义务。HIPAA 要求审计追踪能够重构谁在什么情况下访问了受保护的健康信息。欧盟《人工智能法案》将信用评分、保险风险评估和医疗诊断系统归类为高风险——这一定义触发了从 2026 年 8 月开始生效的文档记录义务、对抗性测试要求和事件报告指令。
SOC 2 Type II 使问题进一步复杂化。该框架的处理完整性(Processing Integrity)标准假设系统能正确且一致地处理数据。然而 LLM 的输出是非确定性的。对一个由 LLM 驱动的产品进行原始的 SOC 2 审计会产生一个悖论:你如何为一个本质上具有多变性的组件提供处理完整性的证据?
答案不是去对抗非确定性。而是在它周围构建基础设施,以足够的保真度捕捉所发生的一切,从而满足监管机构、原告律师或审计员的要求——即使模型的下一次运行会产生不同的输出。
框架未提供的功能
LangChain 和 LlamaIndex 是为编排而设计的。它们为你提供了回调钩子、到 LangSmith 或兼容的可观测性后端的结构化日志以及检索源引用。但它们没有提供:
不可变审计追踪 。 标准日志是约定式追加(Append-by-convention),而非构造式追加(Append-by-construction)。任何日志记录都可以通过相应的数据库权限进行修改或删除。对于受监管的环境,你需要防篡改证据:每个事件记录都包含前一个记录的加密哈希,因此对历史条目的任何修改都是立即可检测的。AuditableLLM 框架 专门针对 LLM 交互展示了这种哈希链方法。你标准的结构化日志管道并没有实现这一点。
输出溯源 (Output Lineage)。 当 LLM 输出进入病历、贷款申请或合同时,需要能够从该输出回溯到确切的检索上下文、模型版本、提示词版本以及产生它的输入。LlamaIndex 会记录 RAG 查询的源文档,这已经很接近了——但它没有将该检索记录与下游输出产物链接起来,不跟踪正在使用的模型版本,也没有为诸如“向我展示进入输出 ID X 的所有内容”之类的合规查询提供 API。
拒绝追踪。 拒绝请求的 LLM 已经做出了一个与合规相关的决策。金融服务业尤其需要知道:系统拒绝回答本该回答的问题的频率是多少?内容拦截的误报率是多少?是否存在特定请求类型被错误拒绝的模式?监控框架将拒绝视为质量指标。合规团队则需要将它们作为处置记录——带时间戳、分类且可查询。
可解释性钩子。 FINRA 关于自主 AI 决策的指南规定,企业需要为高风险输出提供关键输入因素和输出理由的书面摘要。这并非模型可解释性研究;而是一个结构化字段,被追加到每一条可能触发监管审查的决策记录中。
