1 篇博文含有标签「安全」

衡量代理能力和 Anthropic 的 RSP

2025年1月26日 · 阅读需 2 分钟

定义：确保 AI 能力安全扩展的框架。
目标：
- 为安全决策提供结构。
- 确保公众问责。
- 在安全决策上进行迭代。
- 为政策制定者提供模板。
AI 安全等级 (ASL)：仿照生物安全等级 (BSL) 处理危险生物材料，调整安全性、安全性和操作标准与模型的灾难性风险潜力。
- ASL-1：较小的模型：无重大灾难性风险（例如，2018 年的 LLMs，国际象棋 AI）。
- ASL-2：当前大型模型：危险能力的早期迹象（例如，有限可靠性的生化武器指令）。
- ASL-3：高风险模型：具有重大灾难性误用潜力或低级自主性的模型。
- ASL-4 及更高：推测性模型：涉及灾难性风险或自主性质的定性升级的未来系统。
实施：
- 安全挑战和方法。
- 案例研究：计算机使用。

挑战：基准测试变得过时。
示例：
- 相对于人类的任务完成时间：Claude 3.5 在几秒钟内完成任务，而人类开发者需要 30 分钟。
- 基准：
  - SWE-bench：评估现实世界的软件工程任务。
  - Aider 的基准：代码编辑和重构。
结果：
- Claude 3.5 Sonnet 在关键基准测试中优于 OpenAI o1。
- 更快且更便宜：$3/Mtok 输入，相比 OpenAI o1 的 $15/Mtok 输入。