企业工作流代理
· 阅读需 5 分钟
关键主题和背景
企业工作流
- 自动化水平从脚本化工作流(变化最小)到代理工作流(自适应和动态)。
- 企业环境,如由 ServiceNow 支持的环境,涉及复杂的重复性任务,如 IT 管理、CRM 更新和日程安排。
- 采用 LLM 驱动的代理(例如,API 代理和Web 代理)通过利用多模态观察和动态行动等能力来改造这些工作流。
用于企业工作流的 LLM 代理
- API 代理
- 利用结构化的 API 调用提高效率。
- 优点:低延迟,结构化输入。
- 缺点:依赖预定义的 API,适应性有限。
- Web 代理
- 模拟人在网页界面上的操作。
- 优点:更大的灵活性;可以与动态 UI 交互。
- 缺点:高延迟,容易出错。
WorkArena 框架
- 为真实的企业工作流设计的基准。
- 任务范围从IT 库存管理到预算分配和员工离职管理。
- 由 BrowserGym 和 AgentLab 支持,在模拟环境中进行测试和评估。
技术框架
代理架构
-
TapeAgents 框架
- 将代理表示为可恢复的模块化状态机。
- 具有结构化日志(“磁带”)用于记录动作、思考和结果。
- 促进优化(例如,从教师到学生代理的微调)。
-
WorkArena++
- 扩展 WorkArena,增加更多组合性和挑战性的任务。
- 评估代理的能力,如长期规划和多模态数据集成。
基准
- WorkArena:约 20k 个独特的企业任务实例。
- WorkArena++:专注于组合工作流和数据驱动的推理。
- 其他工具:MiniWoB、WebLINX、VisualWebArena。
评估指标
- GREADTH(扎根、响应、准确、纪律、透明、帮助):
- 优先考虑现实世界代理的性能指标。
- 任务特定成功率:
- 例如,通过微调的学生评估表单填写助手的成本比 GPT-4 低 300 倍。