安全可信的 AI 代理和基于证据的 AI 政策
关键主题
- 大型语言模型(LLM)的指数增长及其能力。
- AI 系统相关的广泛风险。
- 确保 AI 的可信度、隐私和一致性面临的挑战。
- 基于科学和证据的 AI 政策的重要性。
广泛的 AI 风险
- 误用/恶意使用:诈骗、虚假信息、生物武器、网络攻击。
- 故障:偏见、系统错误造成的伤害、失去控制。
- 系统性风险:隐私、劳动力市场影响、环境问题。
AI 安全 vs. AI 安保
- AI 安全:防止 AI 系统造成的伤害。
- AI 安保:保护 AI 系统免受外部威胁。
- 对抗性环境:安全机制必须能抵御攻击。
AI 的可信度问题
- 鲁棒性:安全有效的系统,包括对抗性和分布外鲁棒性。
- 公平性:防止算法歧视。
- 数据隐私:防止敏感数据的提取。
- 一致性目标:确保 AI 系统有用、无害且诚实。
训练数据隐私风险
- 记忆化:从大型语言模型中提取敏感数据(如社会安全号码)。
- 攻击:训练数据提取、提示泄露和间接提示注入。
- 防御:差分隐私、去重和鲁棒训练技术。
对抗性攻击和防御
- 攻击:
- 提示注入、数据投毒、越狱。
- 虚拟和物理环境中的对抗性例子。
- 利用 AI 系统的漏洞。
- 防御:
- 提示级防御(例如,重新设计提示,检测异常)。
- 系统级防御(例如,信息流控制)。
- 通过形式验证的安全设计系统。
安全设计的系统
- 主动防御:构建可证明安全的系统。
- 挑战:难以应用于非符号组件,如神经网络。
- 未来系统:混合符号和非符号系统。
AI 政策建议
关键优先事项:
-
更好地理解 AI 风险:
- 全面分析误用、故障和系统性风险。
- 边际风险框架评估 AI 对社会的影响。
-
增加透明度:
- 标准化的 AI 设计和开发报告。
- 示例:数字服务法案,美国行政命令。
-
开发早期检测机制:
- 实验室内对抗性场景测试。
- 部署后监测(例如,不良事件报告)。
-
缓解和防御:
- 安全 AI 的新方法。
- 加强社会对误用的抵御能力。
-
建立信任并减少碎片化:
- 协作研究和国际合作。
行动呼吁
- 未来 AI 政策的蓝图:
- 风险向量和政策干预的分类。
- 针对社会风险的条件响应。
- 多方利益相关者合作:
- 推进科学理解和基于证据的政策。