跳到主要内容

1 篇博文 含有标签「AI 政策」

查看所有标签

安全可信的 AI 代理和基于证据的 AI 政策

· 阅读需 4 分钟

关键主题

  • 大型语言模型(LLM)的指数增长及其能力。
  • AI 系统相关的广泛风险。
  • 确保 AI 的可信度、隐私和一致性面临的挑战。
  • 基于科学和证据的 AI 政策的重要性。

广泛的 AI 风险

  • 误用/恶意使用:诈骗、虚假信息、生物武器、网络攻击。
  • 故障:偏见、系统错误造成的伤害、失去控制。
  • 系统性风险:隐私、劳动力市场影响、环境问题。

AI 安全 vs. AI 安保

  • AI 安全:防止 AI 系统造成的伤害。
  • AI 安保:保护 AI 系统免受外部威胁。
  • 对抗性环境:安全机制必须能抵御攻击。

AI 的可信度问题

  • 鲁棒性:安全有效的系统,包括对抗性和分布外鲁棒性。
  • 公平性:防止算法歧视。
  • 数据隐私:防止敏感数据的提取。
  • 一致性目标:确保 AI 系统有用、无害且诚实。

训练数据隐私风险

  • 记忆化:从大型语言模型中提取敏感数据(如社会安全号码)。
  • 攻击:训练数据提取、提示泄露和间接提示注入。
  • 防御:差分隐私、去重和鲁棒训练技术。

对抗性攻击和防御

  • 攻击
    • 提示注入、数据投毒、越狱。
    • 虚拟和物理环境中的对抗性例子。
    • 利用 AI 系统的漏洞。
  • 防御
    • 提示级防御(例如,重新设计提示,检测异常)。
    • 系统级防御(例如,信息流控制)。
    • 通过形式验证的安全设计系统。

安全设计的系统

  • 主动防御:构建可证明安全的系统。
  • 挑战:难以应用于非符号组件,如神经网络。
  • 未来系统:混合符号和非符号系统。

AI 政策建议

关键优先事项:

  1. 更好地理解 AI 风险

    • 全面分析误用、故障和系统性风险。
    • 边际风险框架评估 AI 对社会的影响。
  2. 增加透明度

    • 标准化的 AI 设计和开发报告。
    • 示例:数字服务法案,美国行政命令。
  3. 开发早期检测机制

    • 实验室内对抗性场景测试。
    • 部署后监测(例如,不良事件报告)。
  4. 缓解和防御

    • 安全 AI 的新方法。
    • 加强社会对误用的抵御能力。
  5. 建立信任并减少碎片化

    • 协作研究和国际合作。

行动呼吁

  • 未来 AI 政策的蓝图
    • 风险向量和政策干预的分类。
    • 针对社会风险的条件响应。
  • 多方利益相关者合作
    • 推进科学理解和基于证据的政策。

资源Understanding-ai-safety.org