衡量代理能力和 Anthropic 的 RSP
· 阅读需 3 分钟
Anthropic 的历史
- 成立:2021 年,作为一家公益公司(PBC)。
- 里程碑:
- 2022 年:Claude 1 完成。
- 2023 年:Claude 1 发布,Claude 2 上线。
- 2024 年:Claude 3 上线。
- 2025 年:在可解释性和 AI 安全方面取得进展:
- 宪法 AI 的数学框架。
- 潜伏代理和叠加的玩具模型。
负责任的扩展政策 (RSP)
- 定义:确保 AI 能力安全扩展的框架。
- 目标:
- 为安全决策提供结构。
- 确保公众问责。
- 在安全决策上进行迭代。
- 为政策制定者提供模板。
- AI 安全等级 (ASL):仿照生物安全等级 (BSL) 处理危险生物材料,调整安全性、安全性和操作标准与模型的灾难性风险潜力。
- ASL-1:较小的模型:无重大灾难性风险(例如,2018 年的 LLMs,国际象棋 AI)。
- ASL-2:当前大型模型:危险能力的早期 迹象(例如,有限可靠性的生化武器指令)。
- ASL-3:高风险模型:具有重大灾难性误用潜力或低级自主性的模型。
- ASL-4 及更高:推测性模型:涉及灾难性风险或自主性质的定性升级的未来系统。
- 实施:
- 安全挑战和方法。
- 案例研究:计算机使用。
衡量能力
- 挑战:基准测试变得过时。
- 示例:
- 相对于人类的任务完成时间:Claude 3.5 在几秒钟内完成任务,而人类开发者需要 30 分钟。
- 基准:
- SWE-bench:评估现实世界的软件工程任务。
- Aider 的基准:代码编辑和重构。
- 结果:
- Claude 3.5 Sonnet 在关键基准测试中优于 OpenAI o1。
- 更快且更便宜:$3/Mtok 输入,相比 OpenAI o1 的 $15/Mtok 输入。
Claude 3.5 Sonnet 亮点
- 代理编码和游戏开发:设计用于在现实场景中提高效率和准确性。
- 计算机使用演示:
- 编码:展示了先进的代码生成和集成。
- 操作:展示了具有安全考虑的操作任务。
AI 安全措施
- 关注领域:
- 扩展治理。
- 能力测量。
- 与学术界合作。
- 实际安全:
- ASL 标准实施。
- 部署保障措施。
- 第一年的经验教训。
未来方向
- 扩展和治理改进。
- 增强的基准和学术合作。
- 解决可解释性和潜伏代理风险。