衡量代理能力和 Anthropic 的 RSP2025年1月26日 · 阅读需 2 分钟Anthropic 的历史 成立:2021 年,作为一家公益公司(PBC)。 里程碑: 2022 年:Claude 1 完成。 2023 年:Claude 1 发布,Claude 2 上线。 2024 年:Claude 3 上线。 2025 年:在可解释性和 AI 安全方面取得进展: 宪法 AI 的数学框架。 潜伏代理和叠加的玩具模型。 负责任的扩展政策 (RSP) 定义:确保 AI 能力安全扩展的框架。 目标: 为安全决策提供结构。 确保公众问责。 在安全决策上进行迭代。