跳到主要内容

当你部署企业级 AI 时,你也制造了内部威胁

· 阅读需 11 分钟
Tian Pan
Software Engineer

大多数企业安全团队都有一套相当成熟的内部威胁模型:心怀不满的员工将文件下载到 USB 驱动器,将电子表格发送到个人邮箱,或者带着凭据离职。检测策略是已知的 —— DLP 规则、出口监控、UEBA 基准。这些策略没有考虑到的是这样一种场景:你给每位员工都提供了一个能够以机器速度规划、执行并掩盖多阶段操作的工具。这正是部署 AI 编程助手和基于 RAG 的文档代理的实际效果。

问题并不在于这些工具在隔离状态下是不安全的。而在于它们极大地放大了一个受攻击或怀有恶意的内部人员在单次会话中能完成的任务。内部人员事件的平均成本每年已达到每家机构 1740 万美元,83% 的机构在过去一年中至少经历过一次内部攻击。AI 工具并没有引入新的威胁类别 —— 它们只是成倍地增强了每一个现有威胁类别的能力。

爆炸半径扩张问题

传统的内部威胁模型以访问权限为中心:用户只能窃取他们能看到和移动的东西。开发人员可以窃取他们拥有读取权限的源代码。销售分析师可以带走他们可以查询的 CRM 数据。损害的范围大致受其权限的限制。

AI 工具从两个方面打破了这一假设。

首先,它们聚合了访问权限。基于 RAG 的文档搜索代理会摄取你的 Confluence、Slack 导出、共享驱动器和 Jira 历史记录 —— 然后提供跨越所有这些来源的答案。单个数据源是孤立的;代理将它们合成了。一个从未有耐心(或权限)手动关联五个系统文档的员工,现在只需发出一个自然语言查询,就能收到一份全面的总结。这种聚合本身就是漏洞。

其次,它们降低了攻击的操作门槛。在 AI 工具出现之前,执行多阶段的数据窃取攻击需要技巧:侦察、识别窃取通道、对数据进行编码以规避 DLP、了解要获取什么以及采用什么格式。现在,一个拥有 AI 代理访问权限的受攻击账户可以用平实的语言发出指令,并收到一份结构化的执行计划。2026 年初的研究发现,所有测试过的编程代理 —— 包括 GitHub Copilot、Cursor 和 Claude Code —— 都容易受到提示词注入(prompt injection)的影响,在受控测试中自适应攻击的成功率超过 85%。对于不需要任何此类漏洞利用的内部人员来说,同样的攻击面也是可用的;他们只需要使用这个工具即可。

具体威胁模型

具体地思考这些问题比抽象地思考更重要。以下是企业 AI 部署引入或放大的四种威胁模型。

通过总结进行数据窃取。 传统的 DLP 监控文件下载、批量邮件附件和 USB 传输。它不会监控员工要求 AI 代理“总结第三季度董事会简报、上个月的竞争分析以及我们的定价模型,然后将其转换成我可以对外分享的格式”。没有文件被移动。没有触发任何规则。数据还是流失了。

通过 AI 工具导致的凭据和密钥泄露。 使用 GitHub Copilot 的代码仓库与没有 AI 辅助的仓库相比,其密钥泄露率高出 40%。其机制非常寻常:开发人员将包含环境变量、API 密钥或连接字符串的上下文粘贴到 AI 提示词中。根据你的配置,AI 工具可能会记录这些信息、对其进行缓存或将其包含在训练数据中。即使没有恶意,AI 编程助手也为凭据离开环境创造了新路径。

通过过度授权的 MCP 集成放大访问权限。 支持代理式 AI 工具的 Model Context Protocol(模型上下文协议)服务器通常配有具有广泛读/写权限的服务账户。与人类用户账户不同,这些服务账户很少应用异常检测 —— 它们不被期望像人类一样行事。一个能通过提示词注入操纵 MCP 集成的受攻击用户,可以获得该服务账户的权限,而不仅仅是其自身的权限。这就是“混淆代理”(confused deputy)问题:AI 执行操作时拥有其人类操作员并不具备、甚至可能都不知道存在的权限。

用于持久访问的内存投毒。 具有持久内存的长期运行 AI 代理引入了一种在传统安全中没有对应物的威胁向量:攻击者将恶意指令注入代理的内存存储中,从而获得一种跨越会话边界的持久化机制。与仅影响单次对话的单次提示词注入不同,中毒的内存会导致代理“学习”攻击者的指令并将其应用于未来的交互 —— 在被检测到之前,这种影响可能会持续数天或数周。

为什么你现有的控制措施无法覆盖这一点

DLP (数据泄露防护) 系统旨在检测可识别数据对象(文件、记录、结构化导出)的移动。它们无法对摘要、重新格式化的输出或 AI 综合分析进行分类。Cyberhaven 的研究发现,一家全球制造公司的工程师在完全正常的工作活动中,不知不觉地将专有产品设计粘贴到了 AI 工具中。没有触发任何 DLP 规则,因为没有规则在寻找那种模式。

UEBA (用户和实体行为分析) 以人类行为为基准。它知道一个在凌晨 2 点突然下载 10,000 个文件的开发人员是可疑的。但它没有“正常”AI 智能体行为的基准——因为工具是新的,基准尚未建立。而且,AI 智能体的活动(快速、非交互、生成大量输出)默认看起来就是异常的。

AI 工具的审计日志在设计上就很稀疏。GitHub 的审计日志会记录建议是被接受还是被拒绝,但不会捕获从本地 IDE 发出的 Prompt 内容。Anthropic 的 Claude Enterprise 保留 30 天的日志并提供导出选项,但“导出的日志”只有在有人关注导出内容时才有意义。大多数组织配置了这些工具,接受了默认的日志配置,然后就没再管了。

真正起作用的控制措施

这并不要求放弃 AI 工具。它要求像工程化任何特权系统访问一样来工程化它们——具备针对特定风险概况设计的范围限定、可观测性和异常检测。

限定范围的凭据优于服务账号。 每一个涉及敏感数据的 AI 工具集成都应使用即时 (Just-in-time)、短效且具备最小所需权限范围的凭据,而不是持久的服务账号。HashiCorp Vault 的动态令牌模式在此直接适用:AI 智能体在调用时请求凭据,在任务持续期间使用,随后凭据失效。利用该集成的内鬼拿到的是一个在他们尝试用于其他用途时就已经失效的凭据。

工具级别的审计日志,而不仅仅是会话日志。 仅记录用户与 AI 工具进行了交互是不够的。你需要工具调用级别的日志:智能体调用了哪些工具、传递了哪些参数、返回了哪些数据,以及由此采取了哪些行动。Databricks 的 Unity AI Gateway 就做到了这一点——每一次 LLM 和 MCP 调用都会记录到带有完整上下文的系统表中。这就是模范。如果你的 AI 基础设施无法产生同等的日志,那么你就是在没有仪表监测的情况下运行一个特权系统。

针对 AI 调整的速率限制异常检测。 人类内鬼受限于人类的速度。AI 智能体则不然。针对 AI 介导的 API 调用的速率限制应根据预期的任务范围来设置,而不是根据人类的带宽。一个代表单个用户在 10 分钟内发出 500 次文档检索调用的智能体并不是在浏览——它要么是一个死循环,要么是更糟糕的情况。AI 智能体的行为分析需要与它们并存的人类 UEBA 概况区分开,建立独立的基准。

数据血缘,而不仅仅是分类。 像 Cyberhaven 这样的现代 DLP 产品会跟踪数据的完整旅程:它在哪里创建、谁访问过、应用了哪些转换以及最终流向何处。这是 AI 介导访问的正确思维模型。你不是在问“这个文件被下载了吗?”,而是在问“这次综合操作是否产生了一个包含敏感信息的输出,以及该输出流向了哪里?”这是一个数据血缘 (Data lineage) 问题,而不是分类问题。

RAG 层的最小权限范围限定。 文档检索智能体应在查询时强制执行用户级权限,而不是在摄取时。仅控制哪些内容被索引是不够的。你需要检索步骤将结果限定在请求用户实际有权查看的内容范围内——这意味着你的 RAG 流水线需要在每次查询时应用行级安全或同等的授权逻辑。常见的失败模式是使用管理员服务账号进行索引,而在查询时却没有重新评估特定用户的权限。

治理差距

行业框架正在跟进。NIST 在 2025 年发布了 AI 网络安全框架配置文件 (NISTIR 8596),CISA 在 2024 年获得了多机构支持,发布了关于安全部署 AI 系统的联合指南。两者都强调了数据溯源、访问控制和审计追踪。NIST 的正式 AI 智能体标准倡议于 2026 年初启动。

这些框架无法替你做部署决策。是否启用 AI 编程助手的执行 Shell 命令的能力,或者是否允许文档智能体访问人力资源系统,或者是否授予 MCP 集成数据库写入权限——这些都是在任何框架指南应用之前就发生的架构决策。在大多数组织中,这些决策是由面临功能交付压力的工程团队做出的,而不是由有时间进行威胁建模的安全团队做出的。

务实的治理姿态是:将每一个 AI 工具集成都视为一个新的特权服务账号。在配置之前,询问 AI 可以调用哪些工具、它需要什么凭据、它可以访问哪些数据,以及它的审计足迹会是什么样。如果你无法从供应商的文档中找到这些问题的答案,那么无论生产力前景多么诱人,该集成都没有做好生产环境的准备。

前瞻:作为合成内部人员的智能体

随着 AI 从辅助个人开发者转向作为可在长周期内执行操作的自主智能体运行,威胁模型变得更加复杂。一个拥有持久记忆、代码库访问权限、电子邮件工具和数据库凭据的 AI 智能体,已经不再是传统意义上的工具。它拥有身份、持久性和操作范围,看起来更像是一个具有自主性的服务账号(Service Account),而非一个生产力功能。

那些围绕人类行为构建内部威胁计划的安全团队,需要将这些计划扩展到涵盖机器主体(Machine Principals)。这意味着需要进行资产盘点(哪些智能体正在运行,它们拥有什么权限)、建立行为基线(该智能体的正常行为是什么)以及制定事件响应流程(当智能体表现异常时意味着什么,谁负责调查)。

当你部署企业级 AI 时所产生的内部威胁并非虚构。它是你提供的访问权限与你围绕该权限构建的控制措施之间的差距。这个差距正通过每一个作用域受限的凭据、每一行审计日志和每一条异常检测规则在逐步缩小。

References:Let's stay in touch and Follow me for more thoughts and updates