跳到主要内容

1 篇博文 含有标签「安全」

查看所有标签

衡量代理能力和 Anthropic 的 RSP

· 阅读需 3 分钟

Anthropic 的历史

  • 成立:2021 年,作为一家公益公司(PBC)。
  • 里程碑
    • 2022 年:Claude 1 完成。
    • 2023 年:Claude 1 发布,Claude 2 上线。
    • 2024 年:Claude 3 上线。
    • 2025 年:在可解释性和 AI 安全方面取得进展:
      • 宪法 AI 的数学框架。
      • 潜伏代理和叠加的玩具模型。

负责任的扩展政策 (RSP)

  • 定义:确保 AI 能力安全扩展的框架。
  • 目标
    • 为安全决策提供结构。
    • 确保公众问责。
    • 在安全决策上进行迭代。
    • 为政策制定者提供模板。
  • AI 安全等级 (ASL):仿照生物安全等级 (BSL) 处理危险生物材料,调整安全性、安全性和操作标准与模型的灾难性风险潜力
    • ASL-1:较小的模型:无重大灾难性风险(例如,2018 年的 LLMs,国际象棋 AI)。
    • ASL-2:当前大型模型:危险能力的早期迹象(例如,有限可靠性的生化武器指令)。
    • ASL-3:高风险模型:具有重大灾难性误用潜力或低级自主性的模型。
    • ASL-4 及更高:推测性模型:涉及灾难性风险或自主性质的定性升级的未来系统。
  • 实施
    • 安全挑战和方法。
    • 案例研究:计算机使用。

衡量能力

  • 挑战:基准测试变得过时。
  • 示例
    • 相对于人类的任务完成时间:Claude 3.5 在几秒钟内完成任务,而人类开发者需要 30 分钟。
    • 基准
      • SWE-bench:评估现实世界的软件工程任务。
      • Aider 的基准:代码编辑和重构。
  • 结果
    • Claude 3.5 Sonnet 在关键基准测试中优于 OpenAI o1。
    • 更快且更便宜:$3/Mtok 输入,相比 OpenAI o1 的 $15/Mtok 输入。

Claude 3.5 Sonnet 亮点

  • 代理编码和游戏开发:设计用于在现实场景中提高效率和准确性。
  • 计算机使用演示
    • 编码:展示了先进的代码生成和集成。
    • 操作:展示了具有安全考虑的操作任务。

AI 安全措施

  • 关注领域
    • 扩展治理。
    • 能力测量。
    • 与学术界合作。
  • 实际安全
    • ASL 标准实施。
    • 部署保障措施。
    • 第一年的经验教训。

未来方向

  • 扩展和治理改进。
  • 增强的基准和学术合作。
  • 解决可解释性和潜伏代理风险。