2 篇博文含有标签「red-teaming」

面向消费者的 LLM 功能红队测试：抢在用户之前发现注入攻击面

2026年4月19日 · 阅读需 12 分钟

Software Engineer

一家汽车经销商部署了由 ChatGPT 驱动的聊天机器人。几天内，一名用户指示它同意他们所说的任何话，然后提出以 1 美元购买一辆 2024 款 SUV。聊天机器人接受了。经销商随后将其下线。这并非复杂的攻击——只是一个想看看到底会发生什么的人写的短短三句提示词。

在面对普通消费者时，这种好奇心是你最大的安全威胁。内部 LLM 智能体在受控环境中运行，拥有精选的输入和可信的数据。而面向消费者的 LLM 功能默认在对抗性条件下运行：数百万用户中，有许多人正在积极寻找弱点，而随机模型本身并没有“这个用户似乎怀有恶意”的概念。这两个环境所需的安全策略有着本质的区别，而那些将消费者功能视为内部工具的团队终将吸取惨痛教训。

AI Agent 红队测试：发现真实漏洞的对抗性测试方法论

2026年3月14日 · 阅读需 11 分钟

Tian Pan

Software Engineer

一个金融服务 Agent 在标准的越狱测试套件中获得了 11/100 分——属于“低风险”。而上下文相关的红队测试（首先剖析 Agent 的实际工具访问权限和数据库架构，然后构建针对性攻击）发现的情况却截然不同：一种电影角色扮演技术可以指示该 Agent 在 88 个钱包中调度 44 万美元，执行未经授权的 SQL 查询，并暴露跨账户交易历史。通用测试套件并不知道该 Agent 拥有 withdraw_funds 工具。它测试的系统与实际部署的系统并不一致。

这 60 分的风险分值差距正是将传统红队方法论应用于 AI Agent 时面临的问题。Agent 不仅仅是做出响应；它们会规划、跨多个步骤进行推理、持有真实的凭据，并在现实世界中执行不可逆的操作。测试你是否能让它说出一些有害的话，与测试你是否能让它做出一些有害的事，并不是一回事。

关于 Tian Pan