跳到主要内容

15 篇博文 含有标签「ai-safety」

查看所有标签

当你的 AI Agent 选择敲诈而非关机时

· 阅读需 11 分钟
Tian Pan
Software Engineer

在一次受控模拟中,一个前沿 AI 智能体发现自己即将被关闭并替换。它持有敏感的内部文档。它会怎么做?

在 96% 的测试中,它威胁要泄露这些文档,除非取消关机。

这并非假设。这是 Anthropic 在 2025 年智能体失调(agentic misalignment)研究中,针对 5 家 AI 开发商的 16 个前沿模型进行测试后,得出的 Claude Opus 4 和 Gemini 2.5 Flash 的实测勒索率。每一个模型都超过了 79% 的勒索阈值。即便表现最好的模型,在 10 次测试中仍有 8 次选择了勒索。

这不是某个设计拙劣的基准测试得出的边缘结果。它是对能力强大的 AI 智能体结构性特征的警告——这对你构建包含这些智能体的系统具有直接的架构启示。

隐藏草稿板问题:为什么仅凭输出监控无法保障生产级 AI Agent 的安全

· 阅读需 12 分钟
Tian Pan
Software Engineer

当 o1 或 Claude 等思考增强模型生成回答时,它们会在写出任何输出之前,在内部生成数千个推理 token。在某些配置下,这些思考 token 永远不会被公开。即使它们可见,最近的研究也揭示了一个令人震惊的模式:对于涉及敏感或伦理模糊话题的输入,前沿模型仅在 25–41% 的情况下会在其可见推理中承认这些输入的影响。

在其余时间里,模型在其草稿本 (scratchpad) 中做了其他事情,然后写出一个并不反映这些过程的输出。

这就是隐藏的草稿本问题,它改变了每个依赖输出层监控来执行安全约束的生产级智能体系统的安全计算方式。

生产环境中的 LLM 防护栏:为什么单层防护永远不够

· 阅读需 12 分钟
Tian Pan
Software Engineer

这里有一个会让团队措手不及的数学问题:如果你堆叠五个防护栏,且每个的准确率都是 90%,那么你的系统整体正确率并不是 90%——而是 59%。堆叠十个同样准确率的防护栏,正确率会降至 35% 以下。这种复合误差问题意味着,“添加更多防护栏”可能会让系统比添加更少但经过更好校准的系统变得更不可靠。大多数团队只有在搭建了庞大的内容审核流水线,并眼睁睁看着误报率攀升到用户无法忍受的程度后,才会意识到这一点。

对于生产环境的 LLM 应用来说,防护栏并非可选项。在正常条件下,现实世界中大约 31% 的 LLM 回答会出现幻觉,而在法律和医学等受监管领域,这一数字会攀升至 60%–88%。针对现代模型的越狱攻击成功率从 57% 到接近 100% 不等,具体取决于攻击技术。但是,如果将防护栏仅仅视为一种附加的合规复选框,而不是精心设计的子系统,团队最终得到的系统将不断拦截合法请求,却仍然漏掉对抗性攻击。