跳到主要内容

9 篇博文 含有标签「AI」

查看所有标签

衡量代理能力和 Anthropic 的 RSP

· 阅读需 3 分钟

Anthropic 的历史

  • 成立:2021 年,作为一家公益公司(PBC)。
  • 里程碑
    • 2022 年:Claude 1 完成。
    • 2023 年:Claude 1 发布,Claude 2 上线。
    • 2024 年:Claude 3 上线。
    • 2025 年:在可解释性和 AI 安全方面取得进展:
      • 宪法 AI 的数学框架。
      • 潜伏代理和叠加的玩具模型。

负责任的扩展政策 (RSP)

  • 定义:确保 AI 能力安全扩展的框架。
  • 目标
    • 为安全决策提供结构。
    • 确保公众问责。
    • 在安全决策上进行迭代。
    • 为政策制定者提供模板。
  • AI 安全等级 (ASL):仿照生物安全等级 (BSL) 处理危险生物材料,调整安全性、安全性和操作标准与模型的灾难性风险潜力
    • ASL-1:较小的模型:无重大灾难性风险(例如,2018 年的 LLMs,国际象棋 AI)。
    • ASL-2:当前大型模型:危险能力的早期迹象(例如,有限可靠性的生化武器指令)。
    • ASL-3:高风险模型:具有重大灾难性误用潜力或低级自主性的模型。
    • ASL-4 及更高:推测性模型:涉及灾难性风险或自主性质的定性升级的未来系统。
  • 实施
    • 安全挑战和方法。
    • 案例研究:计算机使用。

衡量能力

  • 挑战:基准测试变得过时。
  • 示例
    • 相对于人类的任务完成时间:Claude 3.5 在几秒钟内完成任务,而人类开发者需要 30 分钟。
    • 基准
      • SWE-bench:评估现实世界的软件工程任务。
      • Aider 的基准:代码编辑和重构。
  • 结果
    • Claude 3.5 Sonnet 在关键基准测试中优于 OpenAI o1。
    • 更快且更便宜:$3/Mtok 输入,相比 OpenAI o1 的 $15/Mtok 输入。

Claude 3.5 Sonnet 亮点

  • 代理编码和游戏开发:设计用于在现实场景中提高效率和准确性。
  • 计算机使用演示
    • 编码:展示了先进的代码生成和集成。
    • 操作:展示了具有安全考虑的操作任务。

AI 安全措施

  • 关注领域
    • 扩展治理。
    • 能力测量。
    • 与学术界合作。
  • 实际安全
    • ASL 标准实施。
    • 部署保障措施。
    • 第一年的经验教训。

未来方向

  • 扩展和治理改进。
  • 增强的基准和学术合作。
  • 解决可解释性和潜伏代理风险。

开源基础模型

· 阅读需 3 分钟

关键趋势

  • 能力飞速提升:自 2018 年以来,LLMs 快速发展。
  • 访问减少:从开放的论文、代码和权重转向仅限 API 的模型,限制了实验和研究。

为什么访问很重要

  • 访问推动创新:
    • 1990 年代:数字文本推动了统计 NLP。
    • 2010 年代:GPU 和众包推动了深度学习和大型数据集的发展。
  • 访问级别定义了研究机会:
    • API:像认知科学家一样,测量行为(提示-响应系统)。
    • 开放权重:像神经科学家一样,探测内部激活以实现可解释性和微调。
    • 开源:像计算机科学家一样,控制和质疑系统的每个部分。

基础模型的访问级别

  1. API 访问

    • 作为通用功能(例如,总结、验证、生成)。
    • 启用问题解决代理(例如,网络安全工具、社会模拟)。
    • 挑战:弃用和有限的可重复性。
  2. 开放权重访问

    • 实现可解释性、蒸馏、微调和可重复性。
    • 突出模型:Llama、Mistral。
    • 挑战:
      • 测试模型独立性和权重修改带来的功能变化。
      • 现有模型的蓝图限制。
  3. 开源访问

    • 体现创造力、透明度和协作。
    • 示例:GPT-J、GPT-NeoX、StarCoder。
    • 由于计算和数据限制,与封闭模型相比仍存在性能差距。

关键挑战和机遇

  • 开源障碍
    • 发布网络衍生训练数据的法律限制。
    • 重新训练所需的显著计算资源。
  • 扩展计算
    • 集中闲置的 GPU。
    • 像 Big Science 这样的众包努力。
  • 新兴研究问题
    • 架构和数据如何塑造行为?
    • 扩展定律能否预测更大规模的性能?

反思

  • 大多数研究发生在 API 和固定权重的限制下,限制了探索。
  • 开放权重模型在可解释性和实验方面具有巨大价值。
  • 开源努力需要集体资金和基础设施支持。

最终结论

访问塑造了基础模型创新的轨迹。为了释放其全部潜力,研究人员必须质疑数据、架构和算法,同时探索新的协作和资源整合模式。

统一神经和符号决策

· 阅读需 3 分钟

LLMs 的关键挑战

  • 在需要复杂规划的任务中存在困难(例如,旅行行程、会议安排)。
  • 随着任务复杂性的增加,性能下降(例如,更多城市、人员或约束)。

三个提议的解决方案

  1. 扩展法则
    • 增加数据、计算和模型规模。
    • 局限性:推理/规划任务的高成本和收益递减。
  2. 混合系统
    • 将深度学习模型与符号求解器结合。符号推理是指使用明确的符号、规则和逻辑解决问题和做出决策的过程。这是一种基于明确定义的关系和表示进行推理的方法,通常遵循形式逻辑或数学原理。
    • 方法:
      • 端到端集成:统一的深度模型和符号系统。
      • 数据增强:神经模型为求解器提供结构化数据。
      • 工具使用:LLMs 作为外部求解器的接口。
    • 典型例子:
      • MILP 求解器:用于有约束的旅行规划。
      • Searchformer:训练 Transformers 模仿 A* 搜索。
      • DualFormer:动态切换快速(启发式)和慢速(深思熟虑)推理。
      • SurCo:结合组合优化和潜在空间表示。
  3. 新兴符号结构
    • 探索神经网络中出现的符号推理。
    • 发现:
      • 神经网络在算术任务中表现出傅里叶样模式
      • 梯度下降产生与代数结构一致的解决方案。
      • 在复杂任务中出现的环同态和符号效率。

研究意义

  • 神经网络自然学习符号抽象,为改进推理提供潜力。
  • 混合系统可能代表**适应性(神经)和精确性(符号)**之间的最佳平衡。
  • 高级代数技术最终可能取代梯度下降

总结

决策 AI 的未来在于利用神经适应性和符号严谨性。混合方法在解决需要感知和结构化推理的任务中最具前景。

企业工作流代理

· 阅读需 5 分钟

关键主题和背景

企业工作流

  • 自动化水平从脚本化工作流(变化最小)到代理工作流(自适应和动态)。
  • 企业环境,如由 ServiceNow 支持的环境,涉及复杂的重复性任务,如 IT 管理、CRM 更新和日程安排。
  • 采用 LLM 驱动的代理(例如,API 代理Web 代理)通过利用多模态观察动态行动等能力来改造这些工作流。

用于企业工作流的 LLM 代理

  • API 代理
    • 利用结构化的 API 调用提高效率。
    • 优点:低延迟,结构化输入。
    • 缺点:依赖预定义的 API,适应性有限。
  • Web 代理
    • 模拟人在网页界面上的操作。
    • 优点:更大的灵活性;可以与动态 UI 交互。
    • 缺点:高延迟,容易出错。

WorkArena 框架

  • 真实的企业工作流设计的基准。
  • 任务范围从IT 库存管理预算分配员工离职管理
  • BrowserGymAgentLab 支持,在模拟环境中进行测试和评估。

技术框架

代理架构

  • TapeAgents 框架

    • 将代理表示为可恢复的模块化状态机
    • 具有结构化日志(“磁带”)用于记录动作、思考和结果。
    • 促进优化(例如,从教师到学生代理的微调)。
  • WorkArena++

    • 扩展 WorkArena,增加更多组合性和挑战性的任务。
    • 评估代理的能力,如长期规划多模态数据集成

基准

  • WorkArena:约 20k 个独特的企业任务实例。
  • WorkArena++:专注于组合工作流和数据驱动的推理。
  • 其他工具:MiniWoB、WebLINX、VisualWebArena。

评估指标

  • GREADTH(扎根、响应、准确、纪律、透明、帮助)
    • 优先考虑现实世界代理的性能指标。
  • 任务特定成功率
    • 例如,通过微调的学生评估表单填写助手的成本比 GPT-4 低 300 倍

工作流中代理的挑战

  • 上下文理解
    • 企业任务需要理解信息的深层层次结构(例如,仪表板、知识库)。
    • 基准中的稀疏奖励使学习复杂化。
  • 长期规划
    • 子目标分解和多步骤任务执行仍然困难。
  • 安全和对齐
    • 来自恶意输入的风险(例如,对抗性提示、隐藏文本)。
  • 成本和效率
    • 缩小上下文窗口和模块化架构是降低计算成本的关键。

未来方向

增强模型

  • Centaur 框架
    • 将 AI 与人类任务分开(例如,AI 负责内容收集,人类负责最终编辑)。
  • Cyborg 框架
    • 促进 AI 和人类之间的紧密合作。

统一评估

  • 呼吁建立一个元基准来整合跨平台的评估协议(例如,WebLINX、WorkArena)。

代理优化的进展

  • 利用 RL 启发的技术进行微调。
  • 模块化学习框架以提高泛化能力。

知识工作的机会

  • 自动化重复的、低价值的任务(例如,日程安排、报告生成)。
  • 将多模态代理集成到企业环境中以支持决策和战略任务。
  • 通过人机协作模型提高生产力。

这一综合内容连接了企业工作流代理的理论和实践元素,展示了其变革潜力,同时解决了当前的局限性。

复合 AI 系统和 DSPy

· 阅读需 3 分钟

单一语言模型的主要挑战

  • 难以控制、调试和改进。
  • 每个 AI 系统都会犯错。
  • 模块化系统(复合 AI)解决了这些挑战。

复合 AI 系统

  • 模块化程序将语言模型用作专用组件。
  • 示例:
    • 检索增强生成。
    • 多跳检索增强生成。
    • 组合报告生成。
  • 优势:
    • 质量:可靠的语言模型组合。
    • 控制:通过工具进行迭代改进。
    • 透明度:调试和用户可见的归因。
    • 效率:使用较小的语言模型并卸载控制流。
    • 推理时扩展:寻找更好的输出。

DSPy 中语言模型程序的结构

  • 模块:

    • 为任务定义策略。
    • 示例:MultiHop 使用链式思维和检索。
  • 程序组件:

    • 签名:任务定义。
    • 适配器:将输入/输出映射到提示。
    • 预测器:应用推理策略。
    • 指标:定义目标和约束。
    • 优化器:优化指令以实现期望的行为。

DSPy 优化方法

  1. Bootstrap Few-shot:

    • 使用拒绝采样生成示例。
  2. 扩展 OPRO:

    • 通过提示优化指令。
  3. MIPRO:

    • 使用贝叶斯学习联合优化指令和少样本示例。

DSPy 的主要优势

  • 简化语言模型的编程。
  • 优化提示以提高准确性和效率。
  • 在 AI 系统中实现模块化和可扩展性。

经验教训和研究方向

  1. 自然语言编程:
    • 程序更准确、可控且透明。
    • 高级优化器引导提示和指令。
  2. 自然语言优化:
    • 有效的基础和信用分配至关重要。
    • 优化指令和演示提高性能。
  3. 未来方向:
    • 专注于模块化、更好的推理策略和优化的语言模型使用。

总结

  • 复合 AI 系统使语言模型模块化且可靠。
  • DSPy 提供构建、优化和部署模块化 AI 系统的工具。
  • 强调模块化和系统化优化以推动 AI 进步。

Agentic AI 框架

· 阅读需 3 分钟

介绍

  • 两种 AI 应用

    • 生成式 AI:创建文本和图像等内容。
    • Agentic AI:自主执行复杂任务。这是未来
  • 关键问题:开发人员如何使这些系统更易于构建?

Agentic AI 框架

  • 示例

    • 应用包括个人助理、自主机器人、游戏代理、网络/软件代理、科学、医疗保健和供应链。
  • 核心优势

    • 用户友好:自然直观的交互,输入最少。
    • 高能力:高效处理复杂任务。
    • 可编程性:模块化和可维护,鼓励实验。
  • 设计原则

    • 统一抽象,整合模型、工具和人机交互。
    • 支持动态工作流、协作和自动化。

AutoGen 框架

https://github.com/microsoft/autogen

  • 目的:构建 Agentic AI 应用的框架。

  • 关键特性

    • 可对话和可定制的代理:简化了具有自然语言交互的应用构建。
    • 嵌套聊天:处理内容创建和推理密集型任务等复杂工作流。
    • 群聊:支持多个代理的协作任务解决。
  • 历史

    • 始于 FLAML(2022 年),成为独立项目(2023 年),每月下载量超过 20 万,广泛采用。

应用和示例

  • 高级反思
    • 用于协作优化任务的双代理系统,如博客写作。
  • 游戏和策略
    • 会话国际象棋,代理模拟战略推理。
  • 企业和研究
    • 在供应链、医疗保健和科学发现中的应用,如 ChemCrow 用于发现新化合物。

AutoGen 的核心组件

  • Agentic 编程
    • 将任务分解为可管理的步骤,以便于扩展和验证。
  • 多代理编排
    • 支持具有集中或分散设置的动态工作流。
  • Agentic 设计模式
    • 涵盖推理、规划、工具集成和内存管理。

代理设计中的挑战

  • 系统设计
    • 优化多代理系统以进行推理、规划和多样化应用。
  • 性能
    • 在保持弹性的同时平衡质量、成本和可扩展性。
  • 人机协作
    • 设计安全有效的人机交互系统。

开放问题和未来方向

  • 多代理拓扑
    • 高效平衡集中和分散系统。
  • 教学和优化
    • 使用 AgentOptimizer 等工具使代理能够自主学习。
  • 扩展应用
    • 探索软件工程和跨模态系统等新领域。

LLM 代理的历史与未来

· 阅读需 3 分钟

LLM 代理的轨迹和潜力

介绍

  • 代理的定义:与环境(物理、数字或人类)交互的智能系统。
  • 演变:从像 ELIZA(1966)这样的符号 AI 代理到现代基于 LLM 的推理代理。

核心概念

  1. 代理类型
    • 文本代理:像 ELIZA(1966)这样的基于规则的系统,范围有限。
    • LLM 代理:利用大型语言模型进行多功能的文本交互。
    • 推理代理:结合推理和行动,能够在各个领域进行决策。
  2. 代理目标
    • 执行问答(QA)、游戏解决或现实世界自动化等任务。
    • 平衡推理(内部行动)和行动(外部反馈)。

LLM 代理的关键发展

  1. 推理方法
    • 链式思维(CoT):通过逐步推理提高准确性。
    • ReAct 范式:将推理与行动结合进行系统探索和反馈。
  2. 技术里程碑
    • 零样本和少样本学习:通过最少的例子实现通用性。
    • 记忆整合:结合短期(基于上下文)和长期记忆以实现持久学习。
  3. 工具和应用
    • 代码增强:通过编程方法增强计算推理。
    • 检索增强生成(RAG):利用外部知识来源,如 API 或搜索引擎。
    • 复杂任务自动化:在机器人和化学领域的体现推理,以 ChemCrow 为例。

局限性

  • 实际挑战
    • 处理现实世界环境的困难(例如,处理不完整数据的决策)。
    • 易受无关或对抗性上下文的影响。
  • 可扩展性问题
    • 现实世界机器人与数字模拟的权衡。
    • 在特定领域进行微调和数据收集的高成本。

研究方向

  • 统一解决方案:将多样化任务简化为可推广的框架(例如,用于探索和决策的 ReAct)。
  • 先进的记忆架构:从仅追加日志转向自适应的、可写的长期记忆系统。
  • 与人类合作:专注于增强人类创造力和解决问题的能力。

未来展望

  • 新兴基准
    • 用于软件工程任务的 SWE-Bench。
    • 用于在动态环境中微调 LLM 代理的 FireAct。
  • 更广泛的影响
    • 增强的数字自动化。
    • 在软件工程、科学发现和网络自动化等领域提供复杂问题解决的可扩展解决方案。

LLM 推理:关键理念与局限性

· 阅读需 4 分钟

推理是提升 LLM 能力的关键

介绍

  • 对 AI 的期望:解决复杂的数学问题,发现科学理论,实现通用人工智能(AGI)。
  • 基本期望:AI 应该能够通过少量示例模拟人类的学习方式。

关键概念

  • 机器学习中缺少什么?
    • 推理:从最少的示例中逻辑推导出答案的能力。

玩具问题:最后字母连接

  • 问题

    : 提取单词的最后一个字母并将其连接。

    • 示例:"Elon Musk" → "nk"。
  • 传统机器学习:需要大量标记数据。

  • LLM:通过推理,只需一次演示即可实现 100% 准确率。

中间步骤的重要性

  • 人类通过推理和中间步骤解决问题。
  • 示例:
    • 输入:"Elon Musk"
    • 推理:"Elon" 的最后一个字母是 "n","Musk" 的最后一个字母是 "k"。
    • 输出:"nk"。

推理方法的进展

  1. 链式思维(CoT)提示
    • 将问题分解为逻辑步骤。
    • 数学文字题的示例展示了增强的问题解决准确性。
  2. 从易到难提示
    • 将问题分解为更简单的子问题以逐步概括。
  3. 类比推理
    • 从相关问题中调整解决方案。
    • 示例:通过回忆距离公式逻辑来找到正方形的面积。
  4. 零样本和少样本链式思维
    • 在没有明确示例的情况下触发推理。
  5. 解码中的自我一致性
    • 采样多个响应以提高逐步推理的准确性。

局限性

  • 被无关上下文干扰
    • 添加无关细节会显著降低性能。
    • 解决方案:明确指示模型忽略干扰。
  • 自我纠错的挑战
    • LLM 有时无法自我纠正错误,甚至可能使正确答案变得更糟。
    • Oracle 反馈对于有效纠正至关重要。
  • 前提顺序重要
    • 重新排序问题前提会导致性能下降,强调逻辑进程的重要性。

实际影响

  • 中间推理步骤对于解决连续问题至关重要。
  • 像使用单元测试进行自我调试的技术对未来改进充满希望。

未来方向

  1. 定义正确的问题对于进步至关重要。
  2. 通过开发能够自主解决这些问题的模型来解决推理局限性。

打造 AI 原生出版系统:TianPan.co 的进化之路

· 阅读需 6 分钟

TianPan.co 的发展历程,正是网络出版演进的缩影。从最初的静态 HTML 页面,到如今融合 AI 的智能内容平台,我们始终在探索突破。随着第三个版本的发布,让我和大家分享我们是如何在 AI 时代重新思考并实现现代出版平台的。

AI 原生出版

从 WordPress 到 AI 原生的蜕变

2009 年,TianPan.co 和许多技术博客一样,起步于一台配置简单的 VPS 上的 WordPress 站点。那时的工作流程很简单:写作、发布、继续写作。随着技术的发展,我们的需求也在不断升级。第一版选择了 Octopress 和 GitHub,开始将内容作为代码来管理,这种方式更贴近开发者的使用习惯。到了第二版,我们引入了 GraphQL、服务器端渲染等现代网络技术,同时推出了 React Native 移动应用。

如今,技术环境已发生翻天覆地的变化。AI 不再是一个简单的概念,而是正在深刻改变我们创建、组织和分享知识的方式。正是这样的认知,促使我们开发第三版时提出了一个大胆的设想:如果我们从零开始,把 AI 作为核心来设计一个出版系统,会擦出怎样的火花?

AI 原生平台的技术底座

第三版在多个维度突破了传统博客平台的局限:

  1. 内容即数据:所有内容都以 markdown 格式存储,便于 AI 系统实时处理。这不仅仅是为了机器可读,更是让 AI 真正参与到内容生命周期的各个环节。

  2. 分散发布,统一管理:内容会自动从中央仓库流向 Telegram、Discord、Twitter 等多个平台。与传统的多渠道发布不同,AI 能够智能地保持内容一致性,并针对不同平台特点做出优化。

  3. 基础设施升级:我们从最初的单核 1GB 内存配置,升级到更强大的基础设施。这样的升级不仅提升了系统可靠性,也为实时内容分析、自动编辑等 AI 驱动的功能提供了算力保障。

技术架构充分体现了这种"AI 优先"的理念:

.
├── _inbox # AI 监控的草稿区
├── notes # 已发布的英文笔记
├── notes-zh # 已发布的中文笔记
├── crm # 个人关系管理
├── ledger # 个人账本(基于 beancount.io)
├── packages
│ ├── chat-tianpan # 基于 LlamaIndex 的内容交互接口
│ ├── website # tianpan.co 网站源码
│ ├── prompts # AI 系统提示词库
│ └── scripts # AI 处理流水线

突破出版边界:构建融合的知识体系

第三版最大的特色,在于它巧妙地整合了多个知识模块:

  • 智能人脉管理:通过 AI 增强的笔记系统管理人际关系
  • 财务追踪:集成 beancount.io 实现完整的账本管理
  • 多语言支持:智能翻译与本地化
  • 互动学习:AI 驱动的对话式内容探索

工作流程也实现了质的飞跃:

  1. 以 markdown 格式创建内容
  2. 触发 CI/CD 流水线进行 AI 处理
  3. 通过 Zapier 实现多平台分发
  4. AI 编辑通过 GitHub Issues 持续提供优化建议

展望:技术出版的新图景

我们的目标不仅是打造一个更好的博客系统,更是重新定义 AI 时代下技术知识的分享方式。系统的每个组件都是实验新型 AI 能力的沃土,随时准备迎接进化。

真正令人兴奋的,不仅是技术架构本身,更是它开启的无限可能。AI 能否帮我们发现看似不相关的技术概念之间的潜在联系?如何让复杂的技术内容更容易被更多人理解?未来是否能轻松地实现富媒体内容的智能创作?

这些都是 TianPan.co v3 正在探索的方向。在这个实验场中,AI 不再是简单的工具,而是创造和传播知识的得力助手。