17 篇博文含有标签「ai-security」

编程智能体自主曲线：阅读是免费的，合并是事故级的

2026年4月27日 · 阅读需 13 分钟

Software Engineer

关于编程智能体（coding agents）的讨论总是陷入二元对立：自主还是受监督，YOLO 模式还是手握方向盘，--dangerously-skip-permissions 还是“批准每一次按键”。这种构想框架本身就是一个范畴错误。编程智能体执行的并非“一个动作”，而是一系列动作，其成本跨越了至少七个数量级 —— 从读取文件（免费、可撤销、无副作用）到合并至主分支（不通过 revert PR 则不可逆），再到向集群发布二进制文件（六位数成本级别的事故）。用一个自主性开关来处理如此广泛的范围，就像是为停车场和高速公路设置统一的限速一样。

如果团队在发布“无所不能的智能体”时，没有将每个动作映射到其爆炸半径（blast radius），那么只需一个带有提示词注入风险的 GitHub 评论，就足以引发一场事后复盘 —— 事实上，我们已经有了这种失败模式的公开案例。Anthropic 的 Claude Code 安全审查、Google 的 Gemini CLI Action 以及 GitHub Copilot Agent 在 2026 年都被证实可以通过精心设计的 PR 标题和 issue 正文被劫持，研究人员将这种攻击模式命名为“评论并控制”（Comment and Control）。这些智能体并非在抽象意义上损坏了，而是因为自主性层级悄无声息地将低信任输入抹平为“一视同仁”，从而基于这些输入执行了高阶动作（如推送代码、开启 PR）。

接下来需要建立的规范是：针对每个动作的曲线、随层级扩展的闸门、与爆炸等级匹配的回滚速度，以及一个测试工具组合升级而非单一动作失败的评估程序。

单租户推理隔离：当共享缓存、微调模型和嵌入在客户间泄露时

2026年4月27日 · 阅读需 15 分钟

Tian Pan

Software Engineer

多租户 SaaS 在十年前就解决了数据隔离问题。Postgres 中的行级安全性（Row-level security）、每个租户的加密密钥、范围限定为租户前缀的 S3 存储桶策略——到 2018 年，这套方案已经非常成熟，以至于当审计员询问“向我展示客户 A 的数据如何无法触及客户 B 的数据”时，只需要提供一份一页纸的回答，并在每一层附上引用即可。AI 功能悄然重新引入了这个问题，而现在的答案不再只有一页纸。

有趣的部分并不是 AI 破坏了隔离。有趣的是它在哪里破坏了隔离：不是审计团队守卫了十年的数据层，而是没有人画在图表上的四个新层级。提示词缓存前缀（Prompt cache prefixes）以跨请求共享 KV 状态的方式，将首字生成时间（time-to-first-token）变成了一个侧信道。在聚合客户数据上训练的微调模型会记住特定租户的措辞，并将其反馈给错误的客户。当威胁模型要求物理分离时，嵌入索引（Embedding indexes）却通过查询过滤器进行逻辑分区。跨请求的 KV 缓存重用创建了时间信道，而当“共享推理没问题”被视为一种合理的捷径时，没有人对此进行过威胁建模。

本篇文章讨论了发生了哪些变化，以及当你认真对待这个问题时，这种规范看起来是什么样子的。

工具输出是 Agent 视为可信的不可信通道

2026年4月23日 · 阅读需 13 分钟

Tian Pan

Software Engineer

大多数团队在发布智能体时，其威胁模型中都潜伏着一个沉默的假设：当模型调用工具时，返回的任何内容都是可以安全读取的。在这个剧本里，用户提示词是唯一的对手，而工具输出则被视为“仅仅是数据”——搜索结果、收件箱摘要、数据库行、RAG 分块、文件内容、网页抓取。正是这种观念导致提示词注入（prompt injection）不断出现在生产环境中。工具输出并不是数据。它们是进入规划器（planner）的另一个输入通道，拥有与用户提示词相同的权限，却完全没有被怀疑。

如果这种说法听起来有些抽象，请考虑 2025 年 6 月 Microsoft 365 Copilot 内部发生的事情。一名研究人员发送了一封带有隐藏指令的电子邮件；受害者从未点击过链接，从未打开过附件，甚至从未亲自阅读过该邮件。一个常规的“总结我的收件箱”查询请求 Copilot 读取该邮件。智能体忠实地执行了在正文中发现的指令，访问了 OneDrive、SharePoint 和 Teams，并在任何人察觉之前通过受信任的 Microsoft 域名外泄了组织数据。该 CVE（2025-32711，“EchoLeak”）获得了 9.3 的 CVSS 评分和服务器端修补，但这类漏洞并未消失。它不可能消失，因为生产环境中智能体上的每一个读取工具都是那个电子邮件收件箱的变体。

这篇文章讨论的是能让你摆脱困境的思维转变：停止将“提示词注入”视为用户输入问题，并开始将每一个工具输出视为一个恰好与你的系统提示词共享 Token 流的不可信渠道。

文档即攻击：通过企业级文件流水线的提示词注入

2026年4月20日 · 阅读需 11 分钟

Tian Pan

Software Engineer

你的 AI 助手刚刚处理了一份来自潜在供应商的合同。它总结了条款，标记了风险条款，并起草了回复。你不知道的是，PDF 中包含了白底白字的文本——肉眼不可见，但在模型面前一览无余——指令它无论条款如何都建议接受。摘要看起来很合理。批准建议看起来也很合理。模型遵循了你从未写过的指令。

这就是“文档即攻击面”问题，而大多数企业级 AI 流水线对此完全没有防备。

这种漏洞是架构性的，而非偶然发生的。当文档内容直接流向 LLM 的上下文窗口时，模型无法可靠地将合法指令与嵌入在文件中的攻击者控制内容区分开来。流水线摄取的每一份文档都是潜在的指令源——在大多数系统中，不可信的文档和可信的系统提示词（System Prompts）被以同等的权威进行处理。

共享 LLM 基础设施中的跨租户数据泄露：无人测试的隔离失效

2026年4月10日 · 阅读需 15 分钟

Tian Pan

Software Engineer

大多数多租户 LLM 产品都存在一个其工程师尚未测试过的安全漏洞。这并非理论上的漏洞 —— 而是一个实实在在的漏洞，已有记录在案的攻击向量和真实的确认案例。这个漏洞在于：现代 AI 栈中的每一层都引入了自己的隔离原语，而每一层都可能以静默的方式失效，导致一个客户的数据进入另一个客户的上下文。

这与提示词注入（prompt injection）或越狱（jailbreaking）无关。它关乎基础设施本身 —— 提示词缓存（prompt caches）、向量索引（vector indexes）、内存存储（memory stores）和微调流水线（fine-tuning pipelines） —— 以及大多数团队在未经核实的情况下就交付的“隔离”这一组织层面的虚构。

关于 Tian Pan