跳到主要内容

1 篇博文 含有标签「Enterprise」

查看所有标签

企业工作流代理

· 阅读需 5 分钟

关键主题和背景

企业工作流

  • 自动化水平从脚本化工作流(变化最小)到代理工作流(自适应和动态)。
  • 企业环境,如由 ServiceNow 支持的环境,涉及复杂的重复性任务,如 IT 管理、CRM 更新和日程安排。
  • 采用 LLM 驱动的代理(例如,API 代理Web 代理)通过利用多模态观察动态行动等能力来改造这些工作流。

用于企业工作流的 LLM 代理

  • API 代理
    • 利用结构化的 API 调用提高效率。
    • 优点:低延迟,结构化输入。
    • 缺点:依赖预定义的 API,适应性有限。
  • Web 代理
    • 模拟人在网页界面上的操作。
    • 优点:更大的灵活性;可以与动态 UI 交互。
    • 缺点:高延迟,容易出错。

WorkArena 框架

  • 真实的企业工作流设计的基准。
  • 任务范围从IT 库存管理预算分配员工离职管理
  • BrowserGymAgentLab 支持,在模拟环境中进行测试和评估。

技术框架

代理架构

  • TapeAgents 框架

    • 将代理表示为可恢复的模块化状态机
    • 具有结构化日志(“磁带”)用于记录动作、思考和结果。
    • 促进优化(例如,从教师到学生代理的微调)。
  • WorkArena++

    • 扩展 WorkArena,增加更多组合性和挑战性的任务。
    • 评估代理的能力,如长期规划多模态数据集成

基准

  • WorkArena:约 20k 个独特的企业任务实例。
  • WorkArena++:专注于组合工作流和数据驱动的推理。
  • 其他工具:MiniWoB、WebLINX、VisualWebArena。

评估指标

  • GREADTH(扎根、响应、准确、纪律、透明、帮助)
    • 优先考虑现实世界代理的性能指标。
  • 任务特定成功率
    • 例如,通过微调的学生评估表单填写助手的成本比 GPT-4 低 300 倍

工作流中代理的挑战

  • 上下文理解
    • 企业任务需要理解信息的深层层次结构(例如,仪表板、知识库)。
    • 基准中的稀疏奖励使学习复杂化。
  • 长期规划
    • 子目标分解和多步骤任务执行仍然困难。
  • 安全和对齐
    • 来自恶意输入的风险(例如,对抗性提示、隐藏文本)。
  • 成本和效率
    • 缩小上下文窗口和模块化架构是降低计算成本的关键。

未来方向

增强模型

  • Centaur 框架
    • 将 AI 与人类任务分开(例如,AI 负责内容收集,人类负责最终编辑)。
  • Cyborg 框架
    • 促进 AI 和人类之间的紧密合作。

统一评估

  • 呼吁建立一个元基准来整合跨平台的评估协议(例如,WebLINX、WorkArena)。

代理优化的进展

  • 利用 RL 启发的技术进行微调。
  • 模块化学习框架以提高泛化能力。

知识工作的机会

  • 自动化重复的、低价值的任务(例如,日程安排、报告生成)。
  • 将多模态代理集成到企业环境中以支持决策和战略任务。
  • 通过人机协作模型提高生产力。

这一综合内容连接了企业工作流代理的理论和实践元素,展示了其变革潜力,同时解决了当前的局限性。