跳到主要内容

AI 输出的版权陷阱:工程师在演变成法律问题前需要了解的知识

· 阅读需 12 分钟
Tian Pan
Software Engineer

当大语言模型在响应用户提示词时逐字复制受版权保护的文本,谁应该承担法律责任 —— 是模型提供商、构建产品的公司,还是输入查询的用户?在 2026 年,法院正在积极研究这一问题,其答案将直接影响你的生产系统。

大多数工程团队已经接受了这样一个基本叙事:“AI 训练可能会侵犯版权,但那是模型提供商的问题。” 这种叙事在两个重要方面是错误的。首先,基于输出的责任 —— 即模型在推理时产生的内容 —— 在很大程度上与训练数据责任是不同的,且在大多数司法管辖区仍是一个悬而未决的法律问题。其次,你认为从 AI 提供商那里获得的合同赔偿可能比你想象的要窄。

本文涵盖了工程团队面临的实际风险敞口:生产环境中的逐字记忆率(verbatim memorization rates)是怎样的,开源许可证污染如何真正在生成的代码中显现,企业级 AI 协议在哪里留下了风险缺口,以及哪些工程控制措施可以在不停止 AI 采用的情况下切实降低责任风险。

工程师容易混淆的两个法律问题

AI 版权讨论涉及两个需要不同防御策略的独立问题。

训练数据责任 探讨模型提供商是否有权在特定数据集上进行训练。这是 NYT v. OpenAI 诉讼(截至 2026 年仍在进行中)、Anthropic 关于盗版书籍的纠纷(以每部受版权保护作品约 3,000 美元的价格和解,涉及约 500,000 部作品)以及英国 Getty Images v. Stability AI 案件的范畴。这些案例发生在权利持有者和模型提供商之间。你的公司不是被告,你的工程决策也不会影响结果。

输出责任 是风险所在。当你的产品生成文本或代码,且用户或第三方声称该输出侵犯了他们的版权时,模型提供商的训练数据和解并不能为你提供盾牌。Anthropic 的和解协议明确排除了 Claude 生成的侵权输出索赔。大多数企业协议的结构也类似。你需要对产品产生的内容承担下游责任。

这种区别非常重要,因为许多团队投入大量精力根据模型提供商的训练数据实践来评估他们,却几乎不关注服务协议中的输出责任缺口。

逐字记忆的真实情况

前沿大语言模型会记住训练数据。问题在于记住了多少,以及在什么条件下会触发。

对 GPT-3.5-turbo 的研究发现,在对抗性“发散攻击”(divergence attack)条件下 —— 即通过精心设计的提示词引导模型输出记忆内容 —— 超过 5% 的输出可能由训练数据中 50 个 token 序列的直接逐字副本组成。这种提取率比基线输出高出 150 倍。虽然该攻击方式已被公开披露且最明显的漏洞已修补,但底层的记忆现象依然存在。

研究人员在比较 GPT-4 和 Claude 2 在复制受版权保护书籍方面的表现时发现,在直接提示下,GPT-4 有 44% 的概率复现受版权保护的文本,而 Claude 的复现概率为 16%,且在被要求提供特定开头段落时完全拒绝。这些数字并不小 —— 几乎一半对前沿模型的直接提示都产生了受版权保护的内容。

更微妙的风险是研究人员所称的“马赛克记忆”(mosaic memory):模型不再是精确的逐个 token 复现,而是从高度相似的序列中组合输出,这些序列在检测时可能不会被登记为逐字复制。研究表明,模糊重复(fuzzy duplicates)对功能性记忆的贡献约为精确重复的 0.8 倍,这意味着仅关注精确匹配的去重指标低估了实际风险。

具体到代码,在审计中发现 35% 的 GitHub Copilot 生成代码示例包含许可证异常。这不仅仅是企业风险 —— 出现在私有代码库中的 GPL 许可代码可能会触发开源传染(copyleft)义务,而不仅仅是包含该代码的文件。

生成代码中的许可证污染问题

开源许可证污染对于交付 AI 编程工具或使用 AI 生成代码构建内部工具的工程团队来说,是最具体且可衡量的版权风险。

风险运作方式如下:一个在包含 GPL 许可代码的语料库上训练的 AI 编程助手生成了一个函数。生成的代码可能在结构上源自训练集中的 GPL 许可实现。如果该代码最终进入你的私有产品,你可能会在没有任何人类开发人员知情复制的情况下触发 GPL 义务。

现实世界的成本已经开始显现。2024 年,一家法国电信公司因违反 GPL 被判支付超过 900,000 欧元的赔偿金 —— 这个案例发生在 AI 编程大规模普及之前,但它说明了大规模许可证执法的样子。据报道,多家财富 500 强公司在审计发现 AI 生成代码中存在许可证污染后,对其整个代码库进行了全面审查(在某些情况下甚至是重写)。

工程师面临的困难在于,“相似到足以触发 copyleft”目前还没有算法上的定论。实质性相似(substantial similarity)的法律标准是基于具体事实且存在争议的。虽然存在先进的许可证检测工具(大型科技公司内部使用),且有人提出了 DevLicOps 框架作为生命周期许可证管理的系统方法,但目前还没有现成的系统能对生成的代码给出绝对的“安全 / 不安全”结论。

实际影响是:对待接触私有产品的 AI 生成代码,应像对待外部供应商的代码一样 —— 假设它需要许可证审查,而不是在审计时才补救,而是作为开发工作流的一部分。

你的 AI 供应商协议到底涵盖了什么

企业 AI 协议中的赔偿条款在不同供应商之间差异巨大,且经常被依赖它们的团队误解。

Google Cloud 的生成式 AI 赔偿保障是目前最广泛的。它涵盖了两个不同的领域:Google 使用训练数据侵犯第三方权利的索赔,以及 Gemini 或 Vertex AI 生成的未经修改的输出侵犯第三方权利的索赔。这种自动且广泛的输出保障确实少见,使 Google 的方案在企业采购谈判中脱颖而出。

OpenAI 的企业条款为源自服务本身的索赔提供赔偿,但明确排除了客户内容、客户应用程序以及与第三方产品的组合。赔偿涵盖了 OpenAI 构建的部分;它并不涵盖你的应用程序使用 OpenAI API 构建的部分。

Anthropic 关于训练数据责任的结算明确排除了基于输出的索赔。使用 Claude API 的企业客户对于侵犯第三方版权的输出没有合同约定的赔偿保障。该结算解决了 Anthropic 的一类责任,而不是你的。

实际差距在于:大多数工程团队只问 “我们的 AI 供应商有赔偿保障吗?”,而不区分训练数据保障和输出保障。如果你的企业法律团队正在进行 AI 供应商尽职调查,那么在出现问题之前,理清这一区别是最重要的问题。

几个变量决定了你实际面临的风险水平:

  • 你使用的是带有协商协议的企业版,还是带有标准条款的 API?
  • 你的使用场景是否涉及生成可能与第三方受版权保护作品竞争或复刻的内容?
  • 你是否查看过哪家供应商在其条款中明确包含输出赔偿?

真正降低法律责任的工程控制措施

这些控制措施都不能完全消除版权风险,但每种措施都针对暴露面的不同部分。目标是使风险面可衡量且可防御,而不是不可见。

输出去重与相似性检测。在向用户提供生成内容之前,针对已知的受版权保护语料库运行相似性检查。对于代码,这意味着对照 FOSS 代码库检查生成的片段。对于文本,这意味着为你关注的已知受版权保护作品保留指纹。这在任意规模下都不是一个已解决的问题,但对于特定的高风险领域(法律文档、出版书籍、新闻文章),有针对性的指纹检查是可行的。

归因日志。构建能够记录用户输入、模型参数和生成输出之间关系的日志。这有两个目的:如果在发生索赔时提供证据记录(显示模型被要求做什么以及它产生了什么),并让你能够从运行角度洞察统计上最容易触发记忆的查询模式。发散攻击具有特征性的提示结构,在演变成法律问题之前就会出现在日志中。

高风险请求的提示词级护栏。直接要求模型复刻受版权保护材料的请求(“为我写这一章”、“给我这首歌的歌词”)具有极高的记忆触发率。标记这些请求类型的输入分类器——在不阻断通用改写或总结的前提下——可以显著降低尾部风险。目标不是阻止所有生成,而是捕捉具有已知高复刻率的提示模式。

CI 流程中对生成代码的许可证扫描。如果你的开发人员使用 AI 辅助编程,请将生成的代码视为第三方依赖项。在你的 CI 流水线中运行许可证扫描器(FOSS Finder、Scancode、FOSSID),特别注意通过 AI 辅助生成的函数。这不能保证捕捉到所有内容,但它创建了一个在法律上具有意义的记录在案的审查步骤。

数据溯源文档。如果你是在内部训练或微调模型,而不是使用第三方 API,那么 Data Provenance Initiative 的审计框架和 Mozilla/EleutherAI 的 2024 年开放许可 LLM 训练数据集最佳实践是目前的标准参考。许可证类型、收集日期和权利限制应该是贯穿训练流水线中每个数据集的结构化元数据。

你的 AI 输出结果的版权归属

这个问题还有一个经常被忽视的维度:你的 AI 生成输出可能根本不受版权保护。

美国版权局关于 AI 与版权的第二部分报告(2025 年 1 月)确立了版权保护需要人类创作。仅凭提示词是不够的。人类创作微不足道(de minimis)的 AI 生成内容——这描述了大多数 AI 工具的输出——不会获得版权保护,这意味着竞争对手可以合法地复制你生成的 AI 营销文案、文档或产品内容而无需担心侵权。

工程层面的后果不那么明显:如果你正将 AI 生成的内容构建为竞争护城河,那么这个护城河在法律上可能无法防御。这并不意味着要避免 AI 生成的内容,但它确实意味着价值主张需要建立在系统、数据和工作流之上,而不是将输出文本本身作为受保护的资产。

这对你的生产架构意味着什么

风险状况因用例而异,你需要的控制措施应与暴露程度成正比。

高风险: 生成可能与第三方受版权保护作品竞争或重现其内容的文本或代码的系统。例如内部代码生成工具、内容创作平台、法律文件生成、新闻摘要。这些系统需要在企业 AI 协议中进行输出责任审查,并建立归属日志(attribution logging)和输出相似性检查。

中等风险: 使用 AI 处理或分析现有内容但不逐字复制的系统。例如分类、实体提取、具有严格长度限制的摘要、结构化数据提取。记忆(Memorization)风险较低,但并非为零。

较低风险: 模型基于结构化内部数据生成内容,且不接触训练语料库的系统。如果你的模型是在专有数据上进行微调的,且输出领域与受版权保护的作品不重叠,那么实际风险会显著降低。

更广泛的一点是,版权风险对于你的系统来说并不是一个非黑即白的“合法/不合法”问题——它是一个风险面,取决于用例、供应商协议以及你所采取的工程控制措施。那些将其视为法律问题并交给法律顾问解决的团队,正在犯与那些将安全性外包给合规检查表的团队相同的错误。

实际做法是:了解供应商的实际赔偿范围(针对输出,而不仅仅是训练)、在发生索赔之前添加归属日志,并将进入专有产品的 AI 生成代码默认视为需要进行许可审查。这些都不是法律团队该发明的工作——它们是发生在工具和工作流层面的工程决策。

法院仍在制定相关学说。你的生产系统不能干等着。

References:Let's stay in touch and Follow me for more thoughts and updates