衡量代理能力和 Anthropic 的 RSP
· 阅读需 2 分钟
Anthropic 的历史
- 成立:2021 年,作为一家公益公司(PBC)。
- 里程碑:
- 2022 年:Claude 1 完成。
- 2023 年:Claude 1 发布,Claude 2 上线。
- 2024 年:Claude 3 上线。
- 2025 年:在可解释性和 AI 安全方面取得进展:
- 宪法 AI 的数学框架。
- 潜伏代理和叠加的玩具模型。
负责任的扩展政策 (RSP)
- 定义:确保 AI 能力安全扩展的框架。
- 目标:
- 为安全决策提供结构。
- 确保公众问责。
- 在安全决策上进行迭代。
- 为政策制定者 提供模板。
- AI 安全等级 (ASL):仿照生物安全等级 (BSL) 处理危险生物材料,调整安全性、安全性和操作标准与模型的灾难性风险潜力。
- ASL-1:较小的模型:无重大灾难性风险(例如,2018 年的 LLMs,国际象棋 AI)。
- ASL-2:当前大型模型:危险能力的早期迹象(例如,有限可靠性的生化武器指令)。
- ASL-3:高风险模型:具有重大灾难性误用潜力或低级自主性的模型。
- ASL-4 及更高:推测性模型:涉及灾难性风险或自主性质的定性升级的未来系统。
- 实施:
- 安全挑战和方法。
- 案例研究:计算机使用。
衡量能力
- 挑战:基准测试变得过时。
- 示例:
- 相对于人类的任务完成时间:Claude 3.5 在几秒钟内完成任务,而人类开发者需要 30 分钟。
- 基准:
- SWE-bench:评估现实世界的软件工程任务。
- Aider 的基准:代码编辑和重构。
- 结果:
- Claude 3.5 Sonnet 在关键基准测试中优于 OpenAI o1。
- 更快且更便宜:$3/Mtok 输入,相比 OpenAI o1 的 $15/Mtok 输入。