本文来源公众号“AI生成未来”,仅用于学术分享,侵权删,干货满满。
原文链接:智能体人工智能(AGENT AI)全面综述:探索多模态交互的前沿技术
【说明】文章略长,干货满满,分为4个文章。
AI生成未来 | 智能体人工智能(AGENT AI)全面综述:探索多模态交互的前沿技术(一)-CSDN博客
AI生成未来 | 智能体人工智能(AGENT AI)全面综述:探索多模态交互的前沿技术(二)-CSDN博客
6. 智能体人工智能应用任务
6.1 游戏中的智能体
游戏为测试大语言模型和视觉语言模型的智能体行为提供了独特的 “沙盒” 环境,推动了它们在协作和决策能力方面的边界。我们特别描述了三个领域,突出展示了智能体与人类玩家和其他智能体交互的能力,以及它们在环境中采取有意义行动的能力。
6.1.1 非玩家角色(NPC)行为
在现代游戏系统中,非玩家角色(NPC)的行为主要由开发者编写的预定义脚本决定。这些脚本涵盖了基于游戏环境中各种触发器或玩家动作的一系列反应和交互。然而,这种脚本化的性质往往导致NPC行为可预测或重复,无法根据玩家的动作或游戏的动态环境进行演变。这种僵化性阻碍了动态游戏环境中预期的沉浸式体验。因此,人们对利用大语言模型赋予NPC自主性和适应性的兴趣日益浓厚,使交互更加细致入微和引人入胜。由人工智能驱动的NPC可以从玩家行为中学习,适应不同的策略,并提供更具挑战性、更不可预测的游戏体验。大语言模型可以显著促进游戏中NPC行为的演变。通过处理大量文本,大语言模型可以学习模式并生成更多样化、更像人类的响应。它们可用于创建动态对话系统,使与NPC的交互更具吸引力,减少可预测性。此外,大语言模型可以根据玩家反馈和游戏内数据进行训练,不断优化NPC的行为,使其更符合玩家的期望和游戏动态。
6.1.2 人机NPC交互
人类玩家与NPC之间的交互是游戏体验的关键方面。传统的交互模式主要是单向的,NPC以预设的方式对玩家输入做出反应。这种限制抑制了在虚拟领域中实现更自然、更丰富交互(类似于人与人之间的交互)的潜力。大语言模型和视觉语言模型技术的出现有望改变这种模式。通过采用这些技术,游戏系统可以分析和学习人类行为,提供更像人类的交互。这不仅增强了游戏的真实感和吸引力,还为在可控但复杂的环境中探索和理解人机交互提供了平台。
6.1.3 基于智能体的游戏分析
游戏是日常生活的重要组成部分,据估计全球有一半人口参与其中 。此外,游戏对心理健康也有积极影响 。然而,当代游戏系统在与人类玩家的交互方面存在不足,因为它们的行为主要由游戏开发者手工编写。这些预编程的行为往往无法适应玩家的需求。因此,游戏中需要新的人工智能系统,能够分析玩家行为并在必要时提供适当的支持。智能交互系统有可能彻底改变玩家与游戏系统的交互方式。NPC与玩家的交互不再受限于游戏开发者设计的有限规则集。它们有潜力无缝适应玩家的体验,提供及时反馈,丰富游戏体验,提升人机交互的协同效应。
大语言模型可以作为分析游戏内文本数据(包括聊天记录、玩家反馈和叙事内容)的强大工具。它们可以帮助识别玩家行为、偏好和交互的模式,这对于游戏开发者改进游戏机制和叙事非常有价值。此外,视觉语言模型可以解析游戏会话中的大量图像和视频数据,帮助分析玩家在游戏世界中的意图和动作。而且,大语言模型和视觉语言模型可以促进游戏中智能体的开发,这些智能体能够以复杂、类似人类的方式与玩家和其他智能体进行交流,提升整体游戏体验。除了大语言模型和视觉语言模型,用户输入数据也为创建游戏玩家智能体提供了有前景的途径,这些智能体通过模仿人类玩家来模拟感知、游戏玩法和游戏理解。通过结合玩家交互和反馈、像素输入以及自然语言规划和理解,智能体模型可以帮助持续改进游戏动态,推动游戏环境向以玩家为中心的方向发展。
6.1.4 游戏场景合成
场景合成是创建和增强沉浸式游戏环境的重要组成部分。它涉及在游戏中自动或半自动生成三维(3D)场景和环境,包括地形生成、物体放置、逼真光照创建,有时甚至还包括动态天气系统。
现代游戏通常具有广阔的开放世界环境。手动设计这些景观可能非常耗时且资源密集。自动化地形生成通常利用程序化或人工智能驱动的技术,可以用较少的人工努力生成复杂、逼真的景观。大语言模型和视觉语言模型可以利用互联网规模的知识制定规则,设计视觉上令人印象深刻且独特的非重复景观。此外,大语言模型和视觉语言模型可用于确保生成资产的语义一致性和多样性。在场景中以逼真且美观的方式放置建筑物、植被和其他元素对于沉浸感至关重要。
视觉语言模型和大语言模型可以通过遵循预定义或学习到的规则和美学原则来辅助物体放置,从而加快关卡设计过程。视觉语言模型和大语言模型还可以进一步训练以理解设计和美学原则,有助于程序化生成内容。它们可以帮助制定程序化算法可以遵循的规则或指南,以生成既视觉吸引人又符合上下文的物体和场景。
逼真的光照和大气效果是创建可信且引人入胜的游戏环境的基础。先进的算法可以模拟自然光照条件和动态天气效果,增强场景的真实感和氛围。大语言模型可以通过多种创新方式帮助开发更逼真的光照和大气效果系统。视觉语言模型可以分析来自现实世界光照和大气条件的大量数据集,帮助开发更逼真的算法来模拟游戏中的这些效果。通过理解自然光照和天气的模式和细节,这些模型可以为开发模仿现实的算法做出贡献。大语言模型和视觉语言模型还可用于开发根据玩家动作、游戏状态或外部输入实时调整光照和大气效果的系统。它们可以处理玩家的自然语言命令来修改游戏环境,提供更具交互性和沉浸感的体验。
6.1.5 实验与结果
-
• 大语言模型或视觉语言模型的零样本/少样本学习:如图8和图9所示,我们使用GPT-4V进行高级描述和动作预测。图8展示了一些使用GPT-4V生成动作描述和编辑的定性示例。智能体增强文本为利用游戏动作先验生成3D场景开辟了一种新方法,有助于提高场景的自然度。因此,GPT-4V生成的相关高级描述适合游戏视频。
-
-
• 小型智能体预训练模型:为了展示我们的智能体视觉语言架构,我们首先研究其在游戏智能体广泛应用领域中的应用,在Minecraft数据上进行预训练。如图7所示,给定一个输入动作智能体、视频关键帧和相应文本,可使用标准编码器 - 解码器将智能体动作和图像转换为动作文本令牌和图像补丁令牌,然后使用智能体 - 视觉 - 语言解码器将其转换为动作预测句子。整体架构如图7所示。我们用几个Minecraft演示来评估我们的方法。Minecraft视频数据由5分钟的片段组成,我们用于预训练的数据包含78K个视频,我们在第一轮预训练中使用了5K个视频(占预训练数据的6%)。我们在16个NVIDIA v100 GPU上训练一个250M参数的模型一天,并在图10和图11中可视化我们的模型输出。图10表明,我们相对较小的智能体架构可以为训练期间未见过的Minecraft场景产生合理的输出。图11展示了模型预测与实际人类玩家动作的对比,表明我们的小型智能体模型具有潜在的低级理解能力。
-
-
• 多智能体基础设施:如图5的智能体范式所示,我们为一个名为 “CuisineWorld” 的新游戏场景设计了一种新颖的基础设施(Gong等人,2023a)。我们在图12中详细介绍了我们的方法。我们的基础设施通过利用GPT-4作为中央规划器实现多智能体协作,并适用于多个游戏领域。我们研究了我们系统的多智能体规划能力,并将该基础设施部署到现实世界的视频游戏中,以展示其多智能体和人机协作的有效性。此外,我们提出了 “Cuisineworld”,这是一个基于文本的多智能体协作基准,提供了一种新的自动度量协作得分(CoS)来量化协作效率。有关游戏描述、高级动作预测和GPT-4V提示的更多示例和详细信息,请参阅附录。我们在图32和附录B中展示了《血腥边缘》的示例,在图33和附录C中展示了《微软飞行模拟器》的示例,在图34和附录D中展示了《刺客信条:奥德赛》的示例,在图35和附录E中展示了《战争机器4》的示例,在图36和附录F中展示了《星空》的示例。我们还在附录A中的图31中提供了用于生成Minecraft示例的GPT4V提示过程的详细截图。
-
6.2 机器人技术
机器人是需要与环境进行有效交互的代表性智能体。在本节中,我们将介绍高效机器人操作的关键要素,回顾应用最新大语言模型/视觉语言模型技术的研究主题,并分享我们最新研究的成果。
-
• 视觉运动控制:视觉运动控制指的是在机器人系统中集成视觉感知和运动动作,以有效地执行任务。这种集成至关重要,因为它使机器人能够解释来自环境的视觉数据,并相应地调整其运动动作,以准确地与环境进行交互。例如,在装配线上,配备视觉运动控制的机器人可以感知物体的位置和方向,并精确地对齐其操纵器以与这些物体进行交互。这种能力对于确保机器人操作在从工业自动化到协助老年人日常生活等众多应用中的精度和有效性至关重要。此外,视觉运动控制有助于机器人适应动态环境,在这种环境中,环境状态可能迅速变化,需要根据视觉反馈实时调整运动动作。
此外,在安全操作的背景下,视觉信息对于检测执行错误以及确认每个机器人动作的前置和后置条件至关重要。在不受控制的环境中,如未知的家庭环境,机器人更有可能面临由于不可预测因素(如家具形状变化、光照变化和滑动)导致的意外结果。在这些环境中,仅以前馈方式执行预规划的动作计划可能会带来重大风险。因此,利用视觉反馈在每个步骤中持续验证结果是确保机器人系统稳健可靠运行的关键。
-
• 语言条件操作:语言条件操作指的是机器人系统根据语言指令解释和执行任务的能力。这对于创建直观且用户友好的人机交互界面尤为关键。通过自然语言命令,用户可以以类似于人与人交流的方式向机器人指定目标和任务,从而降低操作机器人系统的门槛。在实际场景中,例如,用户可以指示服务机器人 “从桌子上拿起红色苹果”,机器人将解析该指令,识别所提及的物体并执行拿起它的任务(Wake等人,2023c)。核心挑战在于开发强大的自然语言处理和理解算法,能够准确解释从直接命令到更抽象指令的各种指令,并使机器人能够将这些指令转换为可执行的任务。此外,确保机器人能够在不同任务和环境中泛化这些指令,对于提高其在现实世界应用中的多功能性和实用性至关重要。在一个名为任务和运动规划(Garrett等人,2021)的机器人框架中,使用语言输入来指导机器人的任务规划受到了关注。
-
• 技能优化:最近的研究强调了大语言模型在机器人任务规划中的有效性。然而,任务的最佳执行,特别是那些涉及物理交互(如抓取)的任务,需要对环境有更深入的理解,这超出了简单地解释人类指令的范畴。例如,机器人抓取需要精确的接触点(Wake等人,2023e)和手臂姿势(Sasabuchi等人,2021),以有效地执行后续动作。
虽然这些要素(精确的接触点和手臂姿势)对人类来说是直观的,但通过语言表达它们却具有挑战性。尽管互联网规模的视觉语言模型取得了进展,但从场景中捕捉这些微妙的间接线索并将其有效地转化为机器人技能仍然是一个重大挑战。作为回应,机器人学界越来越关注收集增强数据集(例如,Wang等人,2023d;Padalkar等人,2023)或开发从人类演示中直接获取技能的方法(Wake等人,2021a)。包括从演示中学习和模仿学习在内的框架引领了这些发展,在物理技能优化中发挥着关键作用。
6.2.1 机器人领域的大语言模型/视觉语言模型智能体
最近的研究展示了大语言模型/视觉语言模型在涉及与人类在环境中交互的机器人智能体方面的潜力。旨在利用最新大语言模型/视觉语言模型技术的研究主题包括:
-
• 多模态系统:最近的研究积极专注于开发端到端系统,将最新的大语言模型和视觉语言模型技术作为输入信息的编码器。特别是,有一种显著的趋势是修改这些基础模型以处理多模态信息(Jiang等人,2022;Brohan等人,2023,2022;Li等人,2023d;Ahn等人,2022b;Shah等人,2023b;Li等人,2023e)。这种改编旨在基于语言指令和视觉线索来指导机器人动作,从而实现有效的具身化。
-
• 任务规划和技能训练:与端到端系统不同,基于任务和运动规划(TAMP)的系统首先计算高级任务计划,然后通过低级机器人控制(即技能)来实现这些计划。
大语言模型先进的语言处理能力展示了其解释指令并将其分解为机器人动作步骤的能力,极大地推动了任务规划技术的发展(Ni等人,2023;Li等人,2023b;Parakh等人,2023;Wake等人,2023c)。对于技能训练,一些研究探索了使用大语言模型/视觉语言模型来设计奖励函数(Yu等人,2023a;Katara等人,2023;Ma等人,2023)、生成数据以促进策略学习(Kumar等人,2023;Du等人,2023),或作为奖励函数的一部分(Sontakke等人,2023)。与强化学习和模仿学习等训练框架一起,这些努力将有助于开发高效的机器人控制器。
-
• 现场优化:由于不可预测的环境条件,在机器人技术中执行长时间的任务步骤可能很困难。因此,机器人领域的一个重大挑战是通过将任务计划与实时环境数据集成来动态调整和优化机器人技能。例如,(Ahn等人,2022b)提出了一种方法,该方法从视觉信息计算动作的可行性(即可用性),并将其与计划任务进行比较。此外,还有一些方法专注于使大语言模型能够输出任务步骤的前置条件和后置条件(例如,物体的状态及其相互关系),以优化其执行(Zhou等人,2023c),并检测前置条件错误以对任务计划进行必要的修订(Raman等人,2023)。这些策略旨在通过集成环境信息并在任务计划或控制器级别调整机器人的动作,实现基于环境的机器人执行。
-
• 对话智能体:在创建对话机器人时,大语言模型有助于与人类进行自然、上下文敏感的交互(Ye等人,2023a;Wake等人,2023f)。这些模型处理和生成模仿人类对话的响应,使机器人能够参与有意义的对话。此外,大语言模型在估计话语的概念(Hensel等人,2023;Teshima等人,2022)和情感属性(Zhao等人,2023;Yang等人,2023b;Wake等人,2023d)方面发挥着重要作用。这些属性有助于理解人类意图和生成有意义的手势,从而提高人机通信的自然性和有效性。
-
• 导航智能体:机器人导航有着悠久的研究历史,专注于基于地图的路径规划和同时定位与地图构建(SLAM)等核心方面,以创建环境地图。这些功能已成为广泛使用的机器人中间件(如机器人操作系统(ROS)(Guimarães等人,2016))的标准。
虽然经典导航技术在许多机器人应用中仍然普遍存在,但它们通常依赖于静态或预先创建的地图。最近,人们对先进技术的兴趣日益增加,这些技术使机器人能够利用计算机视觉和自然语言处理领域的突破在更具挑战性的环境中导航。一个代表性的任务是对象导航(Chaplot等人,2020a;Batra等人,2020;Gervet等人,2023;Ramakrishnan等人,2022;Zhang等人,2021),其中机器人使用对象名称而不是地图坐标进行导航,这需要在环境中对对象名称进行视觉定位。此外,最近人们关注的焦点是在基础模型之上,使机器人能够在全新的、完全不熟悉的环境中进行零样本导航的技术,即所谓的零样本对象导航(Gadre等人,2023;Dorbala等人,2023;Cai等人,2023)。此外,视觉语言导航(VLN)(Anderson等人,2018a)是一个代表性任务,该任务涉及在以前未见过的现实世界环境中,根据自然语言指令导航智能体(Shah等人,2023a;Zhou等人,2023a;Dorbala等人,2022;Liang等人,2023;Huang等人,2023b)。视觉语言导航解释句子而不是对象名称,例如 “去你左边的浴室”,因此它需要更高的功能来解析输入文本(Wang等人,2019)。
基础模型的出现有助于开发这种自适应、即时的导航技术,因为它增强了对人类语言指令的理解以及对环境信息的视觉解释能力。在6.2.2节中,将对代表性的视觉语言导航研究进行更详细的解释。
6.2.2 实验与结果
越来越多的证据表明,最近的视觉语言模型和大语言模型在符号任务规划(例如,做什么)方面具有有前景的能力。然而,每个任务都需要低级控制策略(例如,怎么做),以实现与环境的成功交互。虽然强化学习和模仿学习是以数据驱动的方式学习策略的有前景的方法,但另一种有前景的方法是通过现场演示直接从人类那里获取策略,这种方法称为观察学习(Wake等人,2021a;Ikeuchi等人,0)。在本节中,我们介绍一项研究,在该研究中,我们使用ChatGPT进行任务规划,并通过用可用性信息对计划进行参数化来丰富计划,以促进有效和精确的执行(图13)。
该流程由两个模块组成:任务规划和参数化。在任务规划中,系统接收语言指令和工作环境的描述。这些指令与一组预定义的机器人动作和输出规范一起,被编译成一个全面的提示提供给ChatGPT,然后ChatGPT生成一系列分解的任务及其文本描述(图13;左窗格)。值得注意的是,我们采用少样本方法,这意味着ChatGPT没有在这个任务上进行训练,这在适用性方面具有优势,因为它消除了对依赖硬件的数据收集和模型训练的需求。此外,输出中的文本描述允许用户检查并在必要时调整结果,这对于安全和稳健的操作是一个关键特征。图14展示了在VirtualHome(Puig等人,2018)上进行的智能体模拟的定性结果。结果展示了合理的任务计划及其在调整输出方面的灵活性,表明了我们方法的广泛适用性。
虽然任务规划器保证了任务序列之间的一致性,但在现实中成功操作需要详细的参数。例如,抓取类型对于搬运容器而不洒出内容物至关重要,而在模拟器中这种参数常常被忽略(见图14中抓取馅饼的情况)。因此,在我们的机器人系统中,用户需要直观地演示每个动作(图13;右窗格)。这些任务具有执行所需的预定义参数,我们的视觉系统从视频中提取这些参数(Wake等人,2021b)。值得注意的是,我们的机器人系统不是为了精确复制人类动作(即远程操作)而设计的,而是为了处理现实世界中的各种条件,例如物体位置的变化。因此,从人类演示中提取的参数不包括精确的运动路径,而是包含决定有效环境运动的可用性信息(例如,避障的路标点(Wake等人,2023a)、抓取类型(Wake等人,2023e)和上肢姿势(Sasabuchi等人,2021;Wake等人,2021a))。上肢的姿势在具有高自由度的机器人中至关重要,其设计目的是为与操作机器人共存的人类呈现可预测的姿势。赋予可用性的任务序列被转换为通过强化学习获得的可重用机器人技能序列,并由机器人执行(Takamatsu等人,2022)。
通过将大语言模型驱动的任务规划与视觉语言模型相结合,可以将其扩展到更通用的机器人系统。在这里,我们展示一个例子,我们使用GPT-4V(ision)在多模态输入的背景下扩展上述任务规划器(图15),人类执行的动作旨在由机器人复制。在本文中,仅展示了部分提示。完整的提示可在microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts上获取。这个流程接收演示视频和文本,然后输出一系列机器人动作。视觉分析器旨在理解视频中人类执行的动作。我们使用GPT-4V并提供一个提示,以生成类似于人与人交流风格的文本指令。图16展示了文本输入如何允许用户对GPT-4V的识别结果提供反馈以进行修正。这个功能旨在提高识别结果的准确性,同时也使操作更加稳健。
接下来,场景分析器根据指令和视频数据的第一帧(或环境图像)将预期的工作环境编译成文本信息。这些环境信息包括GPT-4V识别的对象名称列表、对象的可抓取属性以及对象之间的空间关系。尽管这些计算过程在GPT-4V中是一个黑盒,但信息是基于GPT-4V的知识和图像/文本输入输出的。图17展示了我们场景分析器的示例输出。如图所示,GPT-4V成功选择了与操作相关的对象。例如,当人类重新定位桌子上的垃圾容器时,输出中包括桌子,而对于打开冰箱门的任务,桌子则被忽略。这些结果表明,场景分析器根据人类的动作对场景信息进行了编码。我们提示GPT-4V解释对象选择过程的结果以及这些选择背后的原因。在实践中,我们发现这种方法产生了合理的输出。最后,基于给定的文本指令和环境信息,任务规划器输出一系列任务(Wake等人,2023c)。
-
• 机器人导航的具身智能体:视觉语言导航(VLN)是指在真实3D环境中导航具身智能体以执行自然语言指令的任务。在3D环境中导航(Zhu等人,2017a;Mirowski等人,2016;Mousavian等人,2018;Hemachandra等人,2015)是在物理世界中运行的移动智能系统的一项基本能力。在过去几年中,已经提出了大量的任务和评估协议(Savva等人,2017;Kolve等人,2017;Song等人,2017;Xia等人,2018;Anderson等人,2018a),如(Anderson等人,2018b)中所总结。视觉语言导航(Anderson等人,2018a)专注于真实3D环境中基于语言的导航。为了解决视觉语言导航任务,(Anderson等人,2018a)建立了一个基于注意力的序列到序列基线模型。然后(Wang等人,2018)引入了一种混合方法,结合了无模型和基于模型的强化学习(RL)来提高模型的泛化能力。最后,(Fried等人,2018)提出了一种说话者 - 跟随者模型,该模型采用数据增强、全景动作空间和修改后的束搜索用于视觉语言导航,在Room-to-Room数据集上建立了当前的最先进性能。在先前工作的基础上,我们在(Wang等人,2019)中提出了用于视觉语言导航的强化跨模态匹配(RCM)。RCM模型基于(Fried等人,2018)构建,但在许多重要方面有所不同:(1)RCM结合了一种新颖的多奖励RL和模仿学习用于视觉语言导航,而说话者 - 跟随者模型(Fried等人,2018)仅像(Anderson等人,2018a)中那样使用监督学习。(2)RCM推理导航器执行跨模态定位,而不是对单模态输入使用时间注意力机制。(3)RCM匹配评论家在架构设计上与说话者类似,但前者用于为RL和自监督模仿学习(SIL)训练提供循环重建内在奖励,而后者用于为监督学习扩充训练数据。在(Wang等人,2019)中,我们研究了如何解决该任务的三个关键挑战:跨模态定位、不适定反馈和泛化问题。如图18所示,我们提出了一种新颖的强化跨模态匹配方法,通过强化学习在局部和全局层面强制跨模态定位。具体而言,一个匹配评论家用于提供内在奖励,以鼓励指令和轨迹之间的全局匹配,并且一个推理导航器用于在局部视觉场景中执行跨模态定位。在视觉语言导航基准数据集上的评估表明,我们的RCM模型在成功率加权的路径长度(SPL)上显著优于先前方法10%,并实现了新的最先进性能。为了提高学习到的策略的泛化能力,我们进一步引入了一种自监督模仿学习(SIL)方法,通过模仿自身过去的良好决策来探索未见环境。我们证明SIL可以逼近更好、更高效的策略,这极大地缩小了在见过和未见环境之间的成功率性能差距(从30.7%缩小到11.7%)。此外,在(Wang等人,2019)中,我们引入了一种自监督模仿学习方法用于探索,以明确解决泛化问题,这是先前工作中未充分研究的问题。与此同时,(Thomason等人,2018;Ke等人,2019;Ma等人,2019a,b)从各个方面研究了视觉语言导航任务,并且(Nguyen等人,2018)引入了视觉语言导航任务的一个变体,以便在需要时通过请求语言辅助来查找对象。值得注意的是,我们是第一个提出探索未见环境用于视觉语言导航任务的团队。
-
6.3 医疗保健
在医疗保健领域,大语言模型和视觉语言模型可以充当诊断智能体、患者护理助手,甚至治疗辅助工具,但它们也带来了独特的挑战和责任。虽然人工智能智能体在改善患者护理和拯救生命方面具有巨大潜力,但同样存在危险的可能性,即它们的滥用或仓促部署可能危及全球成千上万甚至数百万人的生命。我们讨论了在医疗保健背景下人工智能智能体的一些有前景的应用途径,同时也探讨了面临的一些关键挑战。
-
• 诊断智能体:最近,使用大语言模型作为医疗聊天机器人进行患者诊断引起了广泛关注,这是由于对医学专家的高需求以及大语言模型在帮助分诊和诊断患者方面的潜力(Lee等人,2023)。对话智能体,尤其是那些能够有效地向来自不同患者群体的广泛人群传达重要医疗信息的智能体,有潜力为历史上处于弱势或边缘化地位的群体提供公平的医疗保健服务。此外,世界各地的医生和医疗保健系统大多负担过重且资源不足,导致全球数亿人无法充分获得医疗服务(世界卫生组织和世界银行,2015)。诊断智能体为改善数百万人的医疗保健提供了一条特别有利的途径,因为它们可以被构建为能够理解多种语言、文化和健康状况。初步结果表明,可以利用大规模网络数据训练具有医疗知识的大型多模态模型(Li等人,2023f)。尽管这是一个令人兴奋的方向,但诊断智能体的前景并非没有风险。我们在以下部分强调医疗环境中幻觉的风险以及可能的解决方案途径。
-
• 知识检索智能体:在医疗背景下,模型幻觉尤其危险,根据错误的严重程度,甚至可能导致严重的患者伤害或死亡。例如,如果患者错误地收到表明他们没有实际患有的疾病的诊断,可能会导致灾难性后果。这些后果包括延迟或不适当的治疗,在某些情况下,甚至完全缺乏必要的医疗干预。未确诊或误诊疾病的严重性可能导致医疗费用增加、延长治疗导致进一步的身体负担,在极端情况下,还可能导致严重伤害甚至死亡。因此,能够使用智能体更可靠地检索知识(Peng等人,2023)或以基于检索的方式生成文本(Guu等人,2020)的方法是有前景的方向。将诊断智能体与医疗知识检索智能体配对,有可能显著减少幻觉,同时提高诊断对话智能体响应的质量和准确性。
-
• 远程医疗和远程监测:基于智能体的人工智能在远程医疗和远程监测领域也具有巨大潜力,它可以改善医疗保健的可及性,加强医疗保健提供者与患者之间的沟通,并提高频繁的医患互动的效率和降低成本(Amjad等人,2023)。初级保健临床医生花费大量时间筛选患者的信息、报告和电子邮件,其中许多信息对他们来说可能是无关或不必要的。支持智能体有很大的潜力帮助分诊来自医生、患者和其他医疗保健提供者的信息,并帮助突出对各方都重要的信息。通过使智能体人工智能系统能够与患者、临床医生和其他人工智能智能体协调,有巨大的潜力彻底改变远程医疗和数字健康行业。
6.3.1 当前医疗保健能力
-
• 图像理解:我们在图19中展示了现代多模态智能体(如GPT-4V)在医疗保健领域的当前能力和局限性。我们可以看到,尽管GPT-4V对医院护理中涉及的设备和程序具有丰富的内部知识,但它并不总是能响应用户更具规定性或诊断性的查询。
-
-
• 视频理解:我们在两种情况下研究视觉语言模型智能体对医学视频的理解性能。首先,我们研究视觉语言模型智能体识别临床空间中重要患者护理活动的能力。其次,我们探索视觉语言模型在更专业的视频(如超声波视频)中的应用。具体而言,在图20中,我们展示了GPT-4V在医院护理和医学视频分析方面的一些当前能力和局限性。
-
6.4 多模态智能体
视觉和语言理解的集成对于开发复杂的多模态人工智能智能体至关重要。这包括图像字幕、视觉问答、视频语言生成和视频理解等任务。我们旨在深入研究这些视觉语言任务,探索它们在人工智能智能体背景下带来的挑战和机遇。
6.4.1 图像 - 语言理解与生成
图像 - 语言理解是一项涉及用语言解释给定图像中的视觉内容,并生成相关语言描述的任务。这项任务对于开发能够以更像人类的方式与世界交互的人工智能智能体至关重要。一些最受欢迎的任务包括图像字幕(Lin等人,2014;Sharma等人,2018;Young等人,2014;Krishna等人,2016)、指代表达(Yu等人,2016;Karpathy等人,2014)和视觉问答(Antol等人,2015;Ren等人,2015;Singh等人,2019)。
最近,引入了需要大量知识的视觉问答任务,如OKVQA(Marino等人,2019)、KBVQA(Wang等人,2015)、FVQA(Wang等人,2017)和WebQA(Chang等人,2021)。多模态智能体应该能够识别图像中的对象,理解它们的空间关系,生成关于场景的准确描述性句子,并利用推理技能处理需要大量知识的视觉推理。这不仅需要对象识别能力,还需要对空间关系、视觉语义的深刻理解,以及将这些视觉元素与语言结构相映射并整合世界知识的能力。
6.4.2 视频与语言理解和生成
-
• 视频语言生成:视频字幕或视频故事生成是为视频帧流生成一系列连贯句子的任务。受在视频和语言任务中成功使用的循环大型基础模型的启发,由智能体驱动的增强模型的变体在视频语言生成任务中显示出有前景的结果。根本挑战在于,神经编码器 - 解码器模型的强大性能在视觉故事生成方面的泛化性不佳,因为该任务需要对每个图像的内容以及不同帧之间的关系有全面的理解。该领域的一个重要目标是创建一个具有智能体感知的文本合成模型,能够有效地编码帧序列并生成主题连贯的多句段落。
-
• 视频理解:视频理解将图像理解的范围扩展到动态视觉内容。这涉及对视频中的帧序列进行解释和推理,通常结合伴随的音频或文本信息。一个智能体应该能够与视觉、文本和音频等多种模态进行交互,以展示其对视频内容的高级理解。该领域的任务包括视频字幕、视频问答和活动识别等。视频理解中的挑战是多方面的,包括视觉和语言内容的时间对齐、长帧序列的处理以及对随时间展开的复杂活动的解释。关于音频,智能体可以处理口语单词、背景噪音、音乐和语音语调,以理解视频内容的情绪、场景和细微差别。
以前的工作主要集中在利用在线可用的现有视频 - 语言训练数据来建立视频基础模型(Li等人,2020,2021b;Fu等人,2022;Bain等人,2021;Zellers等人,2021,2022;Fu等人,2023)。然而,由于这些数据集的有限性和常常不一致的性质,支持这样的训练流程和功能是困难的。视频基础模型设计有掩码和对比预训练目标,然后在各自的任务上进行微调。尽管在多模态基准测试中显示出显著的结果,但这些模型在仅视频任务(如动作识别)中遇到困难,这是由于它们依赖于由嘈杂的音频转录构建的有限视频 - 文本数据。这种限制也导致了缺乏大型语言模型通常具有的稳健性和细粒度推理技能。
其他方法,类似于在图像 - 语言理解中使用的方法,利用大型语言模型的强大推理技能和广泛知识来改进视频解释的不同方面。像ChatGPT和GPT4这样的仅语言模型,或像GPT4-V这样的图像 - 语言模型,将音频、视频和语言模态视为可单独解释的输入数据类型,并将智能体定位为强大的开源模型,从而简化了视频理解任务。例如,(Huang等人,2023c;Li等人,2023g)通过使用开源视觉分类/检测/字幕模型将视频内容文本化,将视频理解转换为自然语言处理(NLP)问答形式。(Lin等人,2023)将GPT4-V与视觉、音频和语音领域的专业工具集成,以促进复杂的视频理解任务,如为长格式视频编写角色动作脚本。
并行研究探索从大型模型生成规模化数据集,然后在生成的数据上应用视觉指令调整(Liu等人,2023c;Li等人,2023c;Zhu等人,2023)。随后使用大量的音频、语音和视觉专家感知模型对视频进行语言化处理。使用自动语音识别工具转录语音,并使用各种标记、定位和字幕模型生成视频描述和相关数据(Li等人,2023g;Maaz等人,2023;Chen等人,2023;Wang等人,2023f)。这些生成的数据集经过处理和过滤,以确保其质量和相关性,然后用于训练和微调模型,以提高其在视频理解任务中的性能。
6.4.3 实验与结果
-
• 知识密集型模型:如INK(Park等人,2022)和KAT(Gui等人,2022a)中所介绍的,这是一种密集型神经知识任务,它整合了人类标注的所需知识,以支持知识密集型检索任务。
-
• 多模态智能体:人们对像Chameleon(Lu等人,2023)和MM-React(Yang等人,2023c)这样的多模态语言模型的兴趣日益浓厚。
-
• 视觉指令调整:VCL(Gui等人,2022b)、Mini-GPT4(Zhu等人,2023)、MPLUG-OWL(Ye等人,2023b)、LSKD(Park等人,2023c)生成图像级指令调整数据集。
-
知识密集型智能体。如图22和图23所示,基于知识的视觉问答和视觉语言检索任务是多模态机器学习中具有挑战性的任务,需要图像内容之外的外部知识。最近关于大规模Transformer的研究主要集中在最大化模型参数存储信息的效率上。而这一研究方向探索了不同的方面:多模态Transformer能否在其决策过程中使用显式知识。基于Transformer的预训练方法在隐式学习跨多种模态的知识表示方面取得了显著成功。然而,传统方法主要是单模态的,在研究知识检索和随后的答案预测时,引发了关于检索到的知识的质量和相关性,以及使用隐式和显式知识的推理过程的整合等问题。为了解决这些问题,我们引入了知识增强Transformer(KAT),它在2022年OK-VQA开放域多模态任务上的表现比其他模型高出6%。KAT使用编码器 - 解码器结构,将来自GPT3的隐式知识与来自网站的显式知识相结合,并在答案生成过程中允许对两种类型的知识进行并发推理。此外,纳入显式知识增强了模型预测的可解释性。代码和预训练模型可在https://github.com/guilk/KAT上获取。
视觉语言Transformer智能体。接下来,我们介绍 “基于图像字幕训练视觉语言Transformer”(VLC)模型(Gui等人,2022b),这是一种仅使用图像 - 字幕对进行预训练的Transformer。尽管VLC仅使用一个简单的线性投影层进行图像嵌入,但与其他依赖于对象检测器或监督式CNN/ViT网络的方法相比,它在各种视觉语言任务中都取得了有竞争力的结果。
通过广泛的分析,我们探索了VLC作为视觉语言Transformer智能体的潜力。例如,我们展示了VLC的视觉表示对于ImageNet-1K分类非常有效,并且我们的可视化结果证实VLC可以准确地将图像补丁与相应的文本标记匹配。随着更多训练数据的增加,性能的可扩展性凸显了开发大规模、弱监督、开放域视觉语言模型的广阔前景。
6.5 视频语言实验
为了探究将预训练的图像-大语言模型应用于视频理解的可行性,我们对InstructBLIP(戴等人,2023)进行了时间维度的扩展,并针对视频字幕生成任务对其进行了微调。具体而言,我们采用了与“Frozen in Time”(贝恩等人,2021)相同的时空注意力划分方案,对InstructBLIP(EVA-CLIP-G(孙等人,2023b))的视觉编码器进行了扩展,并且在训练过程中保持Q-former和大语言模型(Flan-T5-XL(钟等人,2022))处于冻结状态。在字幕训练期间,我们冻结视觉编码器的所有空间层,同时让时间层保持可训练状态。这使得我们的模型能够将图像和视频作为输入(且在图像层面的性能与InstructBLIP相当)。我们在WebVid10M(贝恩等人,2021)的500万个视频-字幕子集上进行了训练。我们在图25中展示了两个示例输出结果。然而,现有的智能体无法完全理解视频内容中精确、细微的视觉细节。视觉指令微调方法也存在类似的局限性,它们缺乏人类水平的通用感知能力,这仍然是多模态模型和智能体需要解决的问题。
经过指令微调的模型在准确总结视频中可见的动作,以及有效识别诸如“人坐在长椅上”这类动作方面显示出了潜力,如图25所示。然而,它们有时会添加不正确的细节,比如“人对着镜头微笑”,这揭示了在捕捉对话主题或视频氛围方面的不足,而这些元素对于人类观察者来说是比较容易察觉的。这些模型在处理复杂的视频内容时,难以准确把握其中的情感、意图和上下文信息,导致生成的字幕与实际内容存在偏差。
为了进一步提升模型在视频理解任务中的表现,我们考虑引入更多的辅助信息,例如视频的音频信号、场景的背景知识等。音频信息可以提供关于对话内容、环境声音和情感表达的重要线索,有助于模型更准确地理解视频的含义。同时,结合场景的背景知识,模型可以更好地理解视频中出现的物体、事件和行为的相关信息,从而生成更准确、更丰富的字幕。
我们还尝试了不同的模型架构和训练策略,以提高模型对视频内容的理解能力和生成质量。例如,采用更复杂的注意力机制来捕捉视频帧之间的时间和空间关系,或者使用多模态融合技术将视觉、语言和音频信息进行有机结合。此外,增加训练数据的多样性和规模,以及采用更精细的标注方法,也有助于提高模型的性能。
通过一系列的实验和改进,我们希望能够开发出更强大、更智能的视频语言模型,使其能够更好地满足实际应用中的需求,如视频内容的自动字幕生成、智能视频分析和交互式视频体验等。尽管目前取得了一些进展,但要实现与人类水平相当的视频理解能力,我们仍然面临着许多挑战,需要不断地进行探索和创新。
在未来的研究中,我们计划进一步深入研究如何提高模型的泛化能力,使其能够适应不同类型和风格的视频内容。同时,我们也将关注模型的可解释性,以便更好地理解模型的决策过程和性能表现。此外,与其他相关领域的结合,如虚拟现实、增强现实和智能机器人等,也将为视频语言模型的应用带来更多的可能性和机遇。
6.6 用于自然语言处理的智能体
自然语言处理(NLP)是人工智能智能体的一个关键领域,因为它使智能体能够理解、生成和与人类语言进行交互。在本节中,我们探讨了在自然语言处理任务中使用智能体的最新进展,以及它们面临的挑战和机遇。
6.6.1 语言理解和生成
语言理解是自然语言处理的基础,对于智能体来说,准确理解人类语言的含义至关重要。近年来,大语言模型(LLMs)在语言理解方面取得了显著进展,例如GPT系列模型。这些模型在大规模文本数据上进行预训练,能够捕捉语言的语法、语义和语用信息。
在智能体中集成大语言模型可以显著提高其语言理解能力。智能体可以利用这些模型来解析用户的指令、问题或陈述,并提取关键信息。例如,一个智能客服智能体可以使用大语言模型来理解客户的咨询,并提供相应的解决方案。
然而,语言理解仍然面临一些挑战。例如,语言具有多义性和模糊性,同一个词或句子在不同的上下文中可能有不同的含义。此外,语言还受到文化、领域和个人习惯的影响,这使得智能体需要具备一定的灵活性和适应性来处理各种语言表达。
语言生成是自然语言处理的另一个重要方面,它要求智能体能够生成自然、流畅和有意义的文本。大语言模型在语言生成方面也表现出色,能够生成各种类型的文本,如故事、摘要、对话等。
在智能体中,语言生成可以用于多种任务,如回答问题、提供建议、生成报告等。例如,一个写作辅助智能体可以根据用户的输入和要求,生成相应的文本内容。
然而,语言生成也存在一些问题。例如,生成的文本可能缺乏逻辑性、连贯性或准确性,或者可能存在重复、冗余或不恰当的表达。此外,大语言模型在生成文本时可能会出现“幻觉”现象,即生成与事实不符或没有意义的内容。
6.6.2 对话系统
对话系统是智能体在自然语言处理中的一个重要应用领域,它使智能体能够与用户进行交互式对话。对话系统可以分为任务型对话系统和闲聊型对话系统。
任务型对话系统旨在帮助用户完成特定的任务,如预订机票、查询信息、购买商品等。这些系统需要具备准确理解用户意图、提供相关信息和指导用户完成任务的能力。
在任务型对话系统中,智能体通常需要与其他系统或服务进行集成,以获取所需的信息或执行相应的操作。例如,一个旅游预订智能体可能需要与航空公司、酒店和旅行社的系统进行交互,以完成机票预订和酒店预订等任务。
闲聊型对话系统则主要用于与用户进行轻松的对话,提供娱乐、陪伴或情感支持等。这些系统需要具备良好的语言理解和生成能力,以及一定的情感识别和表达能力。
在闲聊型对话系统中,智能体需要能够理解用户的情感状态,并做出相应的回应。例如,当用户表达高兴或悲伤的情绪时,智能体可以给予相应的情感支持或回应。
然而,对话系统仍然面临一些挑战。例如,如何处理用户的不完整或模糊的输入,如何保持对话的连贯性和流畅性,以及如何避免对话陷入死循环或产生无意义的回答等。
6.6.3 知识图谱和推理
知识图谱是一种结构化的知识表示形式,它将实体、关系和属性以图形的方式进行表示。在自然语言处理中,知识图谱可以用于增强智能体的知识理解和推理能力。
智能体可以利用知识图谱来获取相关的知识和信息,进行知识推理和问答等任务。例如,当用户提出一个问题时,智能体可以通过查询知识图谱来找到相关的答案或信息。
此外,知识图谱还可以用于解决自然语言处理中的一些问题,如词义消歧、实体识别和关系抽取等。通过将自然语言文本与知识图谱进行匹配和映射,智能体可以更准确地理解文本的含义。
然而,知识图谱的构建和维护是一项复杂的任务,需要大量的人力和时间成本。此外,知识图谱中的知识也可能存在不完整、不准确或过时的情况,这会影响智能体的知识理解和推理能力。
推理是自然语言处理中的一个重要能力,它要求智能体能够根据已有的知识和信息进行逻辑推理和判断。在智能体中,推理可以用于解决各种问题,如回答问题、进行决策、提供建议等。
例如,当用户提出一个问题时,智能体可以通过推理来找到相关的答案或解决方案。推理可以基于规则、逻辑或机器学习算法等方法进行。
然而,推理也面临一些挑战。例如,如何处理不确定性和模糊性,如何进行有效的知识表示和推理算法的设计等。
6.6.4 实验与结果
我们进行了一系列实验来评估智能体在自然语言处理任务中的性能。实验包括语言理解、语言生成、对话系统和知识图谱推理等任务。
在语言理解实验中,我们使用了多种基准数据集来评估智能体对自然语言文本的理解能力。实验结果表明,集成大语言模型的智能体在语言理解任务中表现出色,能够准确地理解文本的含义。
在语言生成实验中,我们评估了智能体生成自然、流畅和有意义文本的能力。实验结果表明,虽然大语言模型在语言生成方面取得了显著进展,但仍然存在一些问题,如生成的文本缺乏逻辑性和准确性等。
在对话系统实验中,我们评估了智能体与用户进行交互式对话的能力。实验结果表明,任务型对话系统在完成特定任务方面表现良好,但在处理用户的不完整或模糊输入方面仍然存在挑战。闲聊型对话系统在情感识别和表达方面取得了一定进展,但在保持对话的连贯性和流畅性方面还需要进一步改进。
在知识图谱推理实验中,我们评估了智能体利用知识图谱进行知识推理和问答的能力。实验结果表明,知识图谱可以显著增强智能体的知识理解和推理能力,但知识图谱的不完整性和不准确性能会影响智能体的推理结果。
总体而言,实验结果表明智能体在自然语言处理任务中具有很大的潜力,但仍然面临一些挑战,需要进一步的研究和改进。未来的研究可以集中在提高智能体的语言理解和生成能力,改进对话系统的性能,以及优化知识图谱的构建和推理算法等方面。
参考资料
-
• 标题:AGENT AI: SURVEYING THE HORIZONS OF MULTIMODAL INTERACTION
-
• 作者:Zane Durante、Qiuyuan Huang、Naoki Wake、Ran Gong、Jae Sung Park、Bidipta Sarkar、Rohan Taori、Yusuke Noda、Demetri Terzopoulos、Yejin Choi、Katsushi Ikeuchi、Hoi Vo、Li Fei-Fei、Jianfeng Gao
-
• 单位:1. Stanford University;2. Microsoft Research, Redmond;3. University of California, Los Angeles;4. University of Washington;5. Microsoft Gaming
-
• 标签:人工智能;多模态交互;智能体;大语言模型;视觉语言模型
-
• 概述: 本文主要探讨了Agent AI这一新兴领域,涵盖其在多模态交互方面的研究进展、技术整合、训练范式、学习方法、应用任务,以及跨模态、跨领域和跨现实的研究,还讨论了数据集、伦理等相关问题。
-
• 链接:https://arxiv.org/pdf/2401.03568
THE END !
文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。