摘要
能够在最少人工干预下完成复杂计算机任务的自主智能体,有望变革人机交互方式,显著提升易用性和生产效率。然而,现有的基准测试要么缺乏交互式环境,要么局限于特定应用或领域的环境,无法反映现实世界中计算机使用的多样性和复杂性,进而限制了任务范围和智能体的可扩展性。为解决这一问题,我们推出了OSWORLD,这是首个专为多模态智能体设计的可扩展真实计算机环境,支持在Ubuntu、Windows和macOS等多种操作系统上进行任务设置、基于执行的评估以及交互式学习。OSWORLD可作为一个统一的集成计算机环境,用于评估涉及任意应用程序的开放式计算机任务。基于OSWORLD,我们创建了一个包含369个计算机任务的基准测试,这些任务涉及开放领域的真实网页和桌面应用程序、操作系统文件输入/输出,以及跨多个应用程序的工作流程。每个任务示例均源自现实世界的计算机使用案例,并包含详细的初始状态设置配置和自定义的基于执行的评估脚本,以确保评估的可靠性和可重复性。在OSWORLD上对基于最先进的大语言模型(LLM)/视觉语言模型(VLM)的智能体进行广泛评估后发现,它们作为计算机助手的能力存在显著不足。虽然人类能够完成超过72.36%的任务,但表现最佳的模型成功率仅为12.24%,主要在图形用户界面(GUI)定位和操作知识方面存在困难。使用OSWORLD进行的全面分析,为开发多模态通用智能体提供了宝