跳到主要内容

2 篇博文 含有标签「red-teaming」

查看所有标签

面向消费者的 LLM 功能红队测试:抢在用户之前发现注入攻击面

· 阅读需 12 分钟
Tian Pan
Software Engineer

一家汽车经销商部署了由 ChatGPT 驱动的聊天机器人。几天内,一名用户指示它同意他们所说的任何话,然后提出以 1 美元购买一辆 2024 款 SUV。聊天机器人接受了。经销商随后将其下线。这并非复杂的攻击——只是一个想看看到底会发生什么的人写的短短三句提示词。

在面对普通消费者时,这种好奇心是你最大的安全威胁。内部 LLM 智能体在受控环境中运行,拥有精选的输入和可信的数据。而面向消费者的 LLM 功能默认在对抗性条件下运行:数百万用户中,有许多人正在积极寻找弱点,而随机模型本身并没有“这个用户似乎怀有恶意”的概念。这两个环境所需的安全策略有着本质的区别,而那些将消费者功能视为内部工具的团队终将吸取惨痛教训。

AI Agent 红队测试:发现真实漏洞的对抗性测试方法论

· 阅读需 11 分钟
Tian Pan
Software Engineer

一个金融服务 Agent 在标准的越狱测试套件中获得了 11/100 分——属于“低风险”。而上下文相关的红队测试(首先剖析 Agent 的实际工具访问权限和数据库架构,然后构建针对性攻击)发现的情况却截然不同:一种电影角色扮演技术可以指示该 Agent 在 88 个钱包中调度 44 万美元,执行未经授权的 SQL 查询,并暴露跨账户交易历史。通用测试套件并不知道该 Agent 拥有 withdraw_funds 工具。它测试的系统与实际部署的系统并不一致。

这 60 分的风险分值差距正是将传统红队方法论应用于 AI Agent 时面临的问题。Agent 不仅仅是做出响应;它们会规划、跨多个步骤进行推理、持有真实的凭据,并在现实世界中执行不可逆的操作。测试你是否能让它说出一些有害的话,与测试你是否能让它 出一些有害的事,并不是一回事。