昆仑万维开源数字智能体研发工具包AgentStudio

风君子博客3月29日消息,昆仑万维2050全球研究院、新加坡南洋理工大学、苏黎世联邦理工学院研究团队联手开源了数字智能体全流程研发工具包AgentStudio,旨在为研究人员和开发者提供一个覆盖智能体完整开发流程的综合性平台,让开发者们能够轻松、高效、灵活地构建专属数字智能体。

AgentStudio所提供的工具涵盖数字智能体开发的全部流程,包括智能体观察与动作空间、跨平台的在线环境支持、交互式数据收集与评估、可扩展的任务套件、以及相应的图形界面。此外,研究团队还评估了多个多模态大模型完成数字世界任务的能力。

AgentStudio是一个完全免费的开源项目,项目团队希望通过这一开源努力,与人工智能社区携手加速智能体技术发展,促进前沿知识共享与合作。目前,AgentStudio相关论文、代码、数据、文档已全部公开。(链接在文末)

AgentStudio工具包的开发,正是基于当前人工智能领域对高效、可扩展智能体开发工具的迫切需求。该工具包不仅包括了智能体观察与动作空间的定义工具,还提供了跨平台的在线环境支持,使得开发者可以在不同的平台和设备上进行智能体的开发与测试。此外,AgentStudio还支持交互式数据收集与评估,以及可扩展的任务套件,极大地增强了其实用性和灵活性。

 


 

 图注:AgentStudio架构及环境介绍

目前,全球有多种数字智能体开发工具包,支持不同的开发环境和应用领域。与现有工具相比,AgentStudio的主要优势在于:

可复现、多模态、跨平台的在线环境:AgentStudio支持通过Docker、VNC、FastAPI以及虚拟机等方式便捷地连接包括Windows、MacOS、Linux等各种操作系统与设备,相比现有环境更加注重真实落地场景。

统一的标准化的输入输出:为了支持智能体和尽可能多地各种软件进行交互,AgentStudio采用了最为通用的输入输出方式,既支持像人一样通过观察电脑屏幕的图像作为输入,操作键盘鼠标和命令行作为输出,也支持进行函数调用和使用API,达到通用计算机控制。

全面、可扩展、可组合的任务集:AgentStudio包含了在十余个应用上用于全面评估AI智能体完成指令的能力,全方位覆盖各种应用软件,如文档操作、邮件处理、日历使用、音乐播放、视频编辑器、代码编辑器等,涵盖复杂真实应用场景,同时包含了范围从单个底层操作到跨任务的组合性任务的不同难度的多级任务。AgentStudio基于该任务集,公开了相应的leaderboard。

完整的智能体数据收集与评估代码:AgentStudio的功能不仅包含了对智能体能力的评估,而且包含了完整开源的数据集收集代码,可用于人工标注数据集,也可用于智能体自行收集经验。

关注工具创造与使用:在开放域中的工具创造与使用是AI智能体的核心能力之一。以电脑为例,AgentStudio为智能体提供了最通用的三类工具:键盘、鼠标、与命令行,同时支持智能体进一步在交互过程中自行创造并复用新的工具,如用于创建、修改日历的工具集,实现智能体的不断自我提升。

交互式可视化界面: AgentStudio提供用户友好的轻量化GUI界面,帮助用户方便快捷地一键自动化创建任务并搜集数据。以下流程图将直观呈现使用AgentStudio创建任务并收集数据的过程。通过AgentStudio提供的用户友好的界面,用户可以实现跨平台的人工演示的录制,包括输入任务指令、通过交互界面得到坐标、编辑和运行代码、记录智能体轨迹等一系列功能,这些大幅简化了大规模数据收集的难度,为下一代智能体数据规模化提供了基础。

 使用AgentStudio创建任务并收集数据以及与环境交互的过程

除了搭建工具包外,研究团队还评估了多个多模态大模型完成数字世界任务的能力。为了全面评估智能体的能力,AgentStudio的结果从多个维度入手:

图形界面grounding数据集:任务仅包含单步动作,指令为不需要规划的底层操作,主要关注智能体和图形界面交互的能力;

日常任务与组合性任务集:任务完成调用复杂API,或需要多步动作、并常常需要跨软件交互。该任务集用于衡量智能体完成日常任务、以及进行复杂动作规划的能力。

AgentStudio的评测结果还进一步分析了现有多模态模型在图形界面grounding数据集表现不佳的可能原因和相应的改进方法,并衡量了模型自我评估的能力,这些都对智能体的自我提升和真实落地至关重要。根据评测结果,研究团队在论文中还讨论了若干有前景的研究方向,包括更通用的图形界面grounding模型和算法、从视频演示中学习等。

 



 

从环境到智能体,从数据到评估,AgentStudio提供了一套完整的解决方案覆盖了构建智能体的全过程,将极大地加速了智能体的发展。AgentStudio的建立在研究团队对智能体、工具调用、代码解释器的深入理解与积累之上。

目前,研究人员已经开源了所有结果,包括环境的实现、智能体数据集、算法实现等,希望帮助人工智能社区搭建更多能够完成复杂任务的AI智能体。

欢迎感兴趣的研究与开发者们下载使用,并关注AgentStudio团队其他相关项目。

附:

论文标题:《AgentStudio: A Toolkit for Building General Virtual Agents》

论文链接:https://arxiv.org/abs/2403.17918

项目主页与文档:https://skyworkai.github.io/agent-studio/

开源代码:https://github.com/SkyworkAI/agent-studio

Leaderboard:https://huggingface.co/spaces/Skywork/agent-studio-leaderboard

 

Published by

风君子

独自遨游何稽首 揭天掀地慰生平