
LLM Agent
文章平均质量分 69
LLM中关于Agent的文章整理,主要是follow Agent的一些进展。
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
Beyond Self-Reports: Multi-Observer Agents for Personality Assessment in Large Language Models
评估大语言模型(LLMs)的人格特质受到越来越多的关注。然而,传统基于自我报告问卷的人格评估方法,可能由于内在偏差和元知识污染,无法捕捉其真实的行为细微差别。本文引入了一种新颖的多观察者框架,用于LLMs的人格评估,该框架受到心理学中知情者报告方法的启发。我们的方法不是仅仅依赖自我评估,而是使用多个配置了特定关系情境(如家庭、朋友或工作场所)的观察者代理,来模拟与主体LLM的互动场景。这些观察者进行对话,随后在大五人格维度上给出评分。我们的实验表明,LLMs在自我报告的人格评分中存在系统性偏差。原创 2025-05-02 09:30:00 · 103 阅读 · 0 评论 -
A Multi-agent Onboarding Assistant based on Large Language Models, Retrieval Augmented Generation
在软件工程中,有效的入职培训至关重要,但由于技术的快速发展,这一过程颇具难度。传统方法,如探索和研讨会,成本高昂、耗时费力,在大型项目中很快就会过时。我们提出了入职伙伴(Onboarding Buddy)系统,该系统利用大语言模型、检索增强生成以及自动化思维链方法来改进入职培训。它在开发环境中集成了动态的、特定上下文的支持,提供自然语言解释、代码见解和项目指导。我们的解决方案基于代理,能在最少人工干预的情况下提供定制化帮助。原创 2025-04-20 08:30:00 · 86 阅读 · 0 评论 -
Survey on Evaluation of LLM-based Agents
基于LLM的智能体代表了AI范式的转变,使自主系统能够在动态环境中进行规划、推理、使用工具并保持记忆。基础能力(规划、工具使用、自我反思、记忆);领域特定基准(网页、软件工程、科学、对话代理);通用智能体评估;评估框架。研究揭示了动态评估趋势(如更真实的挑战场景和实时基准),并指出未来需解决的关键问题:成本效率、安全性、鲁棒性及细粒度评估方法的开发。本综述为智能体评估的快速演进提供了全景图,指明了研究方向。原创 2025-04-01 09:30:00 · 142 阅读 · 0 评论 -
Collab-Overcooked: Benchmarking and Evaluating Large Language Models as Collaborative Agents
基于大语言模型(LLMs)的智能体系统在超越传统自然语言处理任务的现实应用中取得了巨大进展。本文提出了一种新的由大语言模型驱动的多智能体系统(LLM-MAS)基准测试平台Collab-Overcooked,它基于广受欢迎的Overcooked-AI游戏构建,在交互式环境中设置了更具实用性和挑战性的任务。Collab-Overcooked从两个全新的角度扩展了现有基准。第一,它提供了一个支持多种任务和目标的多智能体框架,并鼓励通过自然语言通信进行协作。原创 2025-03-19 08:30:00 · 126 阅读 · 0 评论 -
OSWORLD: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments
能够在最少人工干预下完成复杂计算机任务的自主智能体,有望变革人机交互方式,显著提升易用性和生产效率。然而,现有的基准测试要么缺乏交互式环境,要么局限于特定应用或领域的环境,无法反映现实世界中计算机使用的多样性和复杂性,进而限制了任务范围和智能体的可扩展性。为解决这一问题,我们推出了OSWORLD,这是首个专为多模态智能体设计的可扩展真实计算机环境,支持在Ubuntu、Windows和macOS等多种操作系统上进行任务设置、基于执行的评估以及交互式学习。原创 2025-03-05 16:44:35 · 471 阅读 · 0 评论 -
MLGym: A New Framework and Benchmark for Advancing AI Research Agents
我们介绍了Meta MLGym和MLGym Bench,这是一个新的框架和基准,用于评估和开发AI研究任务中的LLM代理。这是第一个用于机器学习(ML)任务的Gym环境,可以研究用于训练此类代理的强化学习(RL)算法。MLGym bench由13个不同的开放式人工智能研究任务组成,这些任务来自计算机视觉、自然语言处理、强化学习和博弈论等不同领域。解决这些任务需要现实世界的人工智能研究技能,例如生成新的想法和假设,创建和处理数据,实施机器学习方法,训练模型,运行实验,分析结果,并迭代这个过程以改进给定的任务。原创 2025-02-27 09:00:00 · 138 阅读 · 0 评论 -
The Fusion of Large Language Models and Formal Methods for Trustworthy AI Agents: A Roadmap
大型语言模型(LLMs)已经成为一种变革性的人工智能范式,通过其出色的语言理解和上下文生成能力深刻地影响着日常生活。尽管LLM表现出色,但它们面临着一个关键的挑战:由于其基于学习的性质的固有局限性,倾向于产生不可靠的输出。另一方面,形式化方法(FM)是一种成熟的计算范式,为系统的建模、指定和验证提供了数学上严格的技术。FM已广泛应用于关键任务软件工程、嵌入式系统和网络安全。然而,阻碍FM在现实环境中部署的主要挑战在于其陡峭的学习曲线、缺乏用户友好的界面以及效率和适应性问题。原创 2025-01-26 09:00:00 · 219 阅读 · 0 评论 -
Training Agents with Weakly Supervised Feedback from Large Language Models
大型语言模型(LLM)为创建能够通过迭代环境交互处理复杂任务的代理提供了一个有前途的基础。现有的方法要么要求这些代理模仿专家提供的轨迹,要么依赖明确的环境反馈进行强化学习,这限制了它们在游戏或代码生成等特定场景的应用。本文介绍了一种基于 LLM 的代理的新颖训练方法,使用来自批评者 LLM 的弱监督信号,绕过了对专家轨迹或明确反馈的需要。我们的智能体以迭代方式进行训练,最初通过环境交互生成轨迹。随后,批评家 LLM 选择良好轨迹的子集,然后将其用于更新代理,使它们能够在下一次迭代中生成改进的轨迹。原创 2025-01-02 10:15:00 · 174 阅读 · 0 评论 -
Large Language Model-Brained GUI Agents: A Survey
图形用户界面 (GUI) 长期以来一直是人机交互的核心,提供了一种直观且视觉驱动的方式来访问数字系统并与之交互。传统上,自动化 GUI 交互依赖于基于脚本或基于规则的方法,这种方法虽然对固定工作流程有效,但缺乏动态、实际应用程序所需的灵活性和适应性。大型语言模型 (LLM),特别是多模态模型的出现,开创了 GUI 自动化的新时代。他们在自然语言理解、代码生成、任务泛化和视觉处理方面表现出了卓越的能力。原创 2024-12-28 10:15:00 · 166 阅读 · 0 评论 -
VCounselor: A Psychological Intervention Chat Agent Based on a Knowledge-Enhanced LLM
对话式人工智能已经可以独立地与有心理问题的客户进行简短的对话,并提供基于证据的心理干预。本研究的主要目的是通过创建专门的代理 VCounselor 来提高大语言模型在心理干预中的有效性和可信度,以解决流行的大语言模型(例如 ChatGPT)在领域应用中观察到的局限性。我们通过提出新的情感交互结构和知识增强结构来实现这一目标。为了评估VCounselor,本研究比较了通用大语言模型、微调大语言模型和VCounselor知识增强型大语言模型。原创 2024-12-22 09:15:00 · 149 阅读 · 0 评论 -
OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback
大型语言和多模态模型的快速发展引发了人们对使用GPT4o等专有模型开发能够处理网络导航等现实场景的自主代理的浓厚兴趣。尽管最近的开源努力试图让代理具备探索环境的能力,并随着时间的推移不断改进,但他们正在合成环境中构建纯文本代理,在这种环境中,奖励信号是明确定义的。这些智能体很难推广到需要多模态感知能力且缺乏地面真实信号的现实环境中。本文介绍了一个开源框架,旨在促进多模态web代理的开发,该代理可以自主进行现实世界的探索并自我改进。我们首先通过模仿学习训练基础模型,以获得基本能力。原创 2024-11-06 10:30:00 · 63 阅读 · 0 评论 -
Artificial Agency and Large Language Models
大型语言模型 (LLM) 的到来引发了关于以人工方式实现代理的可能性的哲学辩论。在这项工作中,我们通过提出一个可以用作人工代理的阈值概念的理论模型来为辩论做出贡献。该模型将代理定义为其操作和目标始终受动态因素框架影响的系统,该框架由代理的可访问历史记录、其适应性库和外部环境组成。反过来,这个框架会受到代理采取的行动和它形成的目标的影响。我们借助该模型表明,最先进的 LLM 还不是代理,但它们有一些元素可以建议前进的方向。原创 2024-11-04 19:38:05 · 125 阅读 · 0 评论 -
WEB AGENTS WITH WORLD MODELS: LEARNING AND LEVERAGING ENVIRONMENT DYNAMICS IN WEB NAVIGATION
大型语言模型(LLM)最近在构建自主代理方面受到了广泛关注。然而,当前基于LLM的web代理在长期任务中的性能远非最佳,经常会产生错误,例如反复购买不可退款的机票。相比之下,人类可以避免这种不可逆转的错误,因为我们意识到自己行为的潜在结果(例如亏损),这也被称为“世界模型”。受此启发,我们的研究首先从初步分析开始,证实了当前LLM中缺乏世界模型(例如GPT-4o、Claude-3.5-Sonnet等)。然后,我们提出了一个世界模型增强(WMA)网络代理,它模拟了其行为的结果,以更好地做出决策。原创 2024-10-23 09:15:00 · 203 阅读 · 0 评论 -
Levels of AI Agents: from Rules to Large Language Models
AI 代理被定义为用于感知环境、做出决策和采取行动的人工实体。受 SAE(汽车工程师协会)自动驾驶 6 个级别的启发,AI 代理也根据效用和强度进行分类,分为以下级别:L0 — 无 AI,有工具(有感知)加动作;L1 使用基于规则的 AI;L2—让基于规则的AI被基于IL/RL的AI取代,具有额外的推理和决策能力;L3—应用基于LLM的AI而不是基于IL/RL的AI,额外设置内存和反射;L4——基于 L3,促进自主学习和泛化;L5 — 基于 L4,附加个性(情感 + 性格)和协作行为(多智能体)。原创 2024-10-14 11:05:03 · 248 阅读 · 0 评论 -
AutoWebGLM: Bootstrap And Reinforce A Large Language Model-based Web Navigating Agent
大型语言模型(LLM)推动了许多智能代理任务,如网络导航,但由于三个因素,大多数现有的代理在现实世界的网页中的表现远不能令人满意:(1)网页上动作的多功能性,(2)HTML文本超过了模型处理能力,以及(3)由于网络的开放域性质导致的决策复杂性。鉴于这一挑战,我们开发了AUTOWEBGLM,这是一款基于ChatGLM3-6B构建的GPT-4性能优于自动网络导航代理。受人类浏览模式的启发,我们设计了一种HTML简化算法来表示网页,简洁地保留了重要信息。我们采用混合人工智能方法为课程训练构建网络浏览数据。原创 2024-09-05 09:11:18 · 259 阅读 · 0 评论 -
KNOWLEDGEABLE AGENTS BY OFFLINE REINFORCEMENT LEARNING FROM LARGE LANGUAGE MODEL ROLLOUTS
强化学习(RL)训练智能体通过环境交互数据完成复杂任务,但其能力也受到可用数据范围的限制。为了获得知识渊博的代理,一种有前景的方法是利用大型语言模型(LLM)的知识。尽管之前的研究将LLM与RL相结合,但由于语义差距,这两个组件的无缝集成仍然具有挑战性。本文介绍了一种新方法,即语言模型展开中的知识代理(KALM),该方法以虚拟展开的形式从LLM中提取知识,代理可以通过离线强化学习方法轻松学习。KALM的主要挑战在于LLM的基础,因为LLM本质上仅限于文本数据,而环境数据通常包含LLM看不到的数值向量。原创 2024-08-07 20:15:13 · 178 阅读 · 0 评论 -
DiffAgent: Fast and Accurate Text-to-Image API Selection with Large Language Model
文本到图像(T2I)生成模型引起了广泛关注,并在学术研究内外得到了广泛应用。例如,Civitai社区是T2I创新的平台,目前拥有74492种不同的模型。然而,这种多样性在选择最合适的模型和参数方面带来了巨大的挑战,这一过程通常需要大量的试验。从大型语言模型(LLM)的工具使用研究中获得灵感,我们介绍了DiffAgent,这是一种LLM代理,旨在通过API调用在几秒钟内筛选准确的选择。DiffAgent利用了一种新颖的两阶段训练框架SFTA,使其能够根据人类偏好将T2I API响应与用户输入准确对齐。原创 2024-07-22 15:03:47 · 460 阅读 · 0 评论 -
AriGraph: Learning Knowledge Graph World Models with Episodic Memory for LLM Agents
生成式人工智能的进步拓宽了大型语言模型(LLM)在自主代理开发中的潜在应用。实现真正的自主性需要积累和更新从与环境的交互中获得的知识,并有效地利用它。目前基于LLM的方法利用过去的经验,使用完整的观察历史、总结或检索增强。然而,这些非结构化的记忆表示并不能促进复杂决策所必需的推理和规划。在我们的研究中,我们介绍了AriGraph,这是一种新方法,其中代理在探索环境的同时构建了一个整合语义和情景记忆的记忆图。原创 2024-07-18 14:44:37 · 408 阅读 · 0 评论 -
Content Knowledge Identification with Multi-Agent Large Language Models (LLMs)
教师的数学内容知识(CK)在教师专业发展(PD)项目中具有至关重要的意义和需求。计算机辅助异步PD系统是最近提出的PD技术,旨在帮助教师平等地提高他们的PD,同时减少对成本和时间或地点限制的担忧。然而,目前作为异步PD系统核心技术之一的自动CK识别方法面临着用户响应多样性、高质量注释数据稀缺和预测可解释性低等挑战。为了应对这些挑战,我们提出了一个基于多代理LLM的框架LLMAgentCK,用于评估用户对已识别CK学习目标的响应覆盖率,而无需人工注释。原创 2024-07-17 16:21:23 · 193 阅读 · 0 评论 -
Exploring Autonomous Agents through the Lens of Large Language Models: A Review
大型语言模型(LLM)正在改变人工智能,使自主代理能够在各个领域执行各种任务。这些代理精通类人文本理解和生成,有可能彻底改变从客户服务到医疗保健的各个领域。然而,他们面临着多模态、人类价值对齐、幻觉和评估等挑战。提示、推理、工具利用和情境学习等技术正在被探索,以提高他们的能力。AgentBench、WebArena和ToolLLM等评估平台为在复杂场景中评估这些代理提供了强大的方法。原创 2024-07-15 15:17:50 · 178 阅读 · 0 评论 -
Challenges Faced by Large Language Models in Solving Multi-Agent Flocking
群集是一种行为,系统中的多个代理试图保持彼此靠近,同时避免碰撞并保持所需的编队。这在自然界中得到了观察,并在机器人技术中得到了应用,包括自然灾害搜救、野生动物跟踪以及周边监视和巡逻。最近,大型语言模型(LLM)作为个体决策者,在解决各种协作任务方面表现出了令人印象深刻的能力。使用LLM解决多代理群集问题将证明它们在需要空间和分散决策的情况下的有用性。然而,当LLM驱动的代理负责实现多代理群集时,它们没有达到预期的行为。原创 2024-07-15 10:32:24 · 97 阅读 · 0 评论 -
A Survey on the Memory Mechanism of Large Language Model based Agents
基于大型语言模型(LLM)的代理最近引起了研究和行业界的广泛关注。与原始的LLM相比,基于LLM的代理具有自我进化的能力,这是解决需要长期和复杂的代理环境交互的现实世界问题的基础。支持代理与环境交互的关键组件是代理的内存。虽然之前的研究提出了许多有前景的记忆机制,但它们分散在不同的论文中,缺乏系统的综述来从整体的角度总结和比较这些作品,未能抽象出共同有效的设计模式来启发未来的研究。为了弥合这一差距,本文对基于LLM的代理的记忆机制进行了全面的调查。原创 2024-07-14 22:51:41 · 205 阅读 · 0 评论 -
A Survey on Large Language Model-Based Game Agents
游戏代理的开发在推进通用人工智能(AGI)方面发挥着关键作用。LLM及其多模态对应物(MLLM)的进步为在复杂的计算机游戏环境中进化和赋予具有类似人类决策能力的游戏代理提供了前所未有的机会。本文从整体的角度对基于LLM的游戏代理进行了全面的概述。首先,我们介绍了基于LLM的游戏代理的概念架构,围绕六个基本功能组件:感知、记忆、思维、角色扮演、动作和学习。其次,我们调查了文献中记录的现有具有代表性的基于LLM的游戏代理,涉及六种游戏类型的方法和适应敏捷性,包括冒险、交流、竞争、合作、模拟以及制作和探索游戏。原创 2024-07-12 10:11:54 · 120 阅读 · 0 评论 -
AGENTLESS : Demystifying LLM-based Software Engineering Agents
大型语言模型(LLM)的最新进展显著提高了软件开发任务的自动化,包括代码合成、程序修复和测试生成。最近,研究人员和行业从业者开发了各种自主LLM代理来执行端到端软件开发任务。这些代理具有使用工具、运行命令、观察环境反馈以及规划未来行动的能力。然而,这些基于代理的方法的复杂性,加上当前LLM的有限能力,提出了以下问题:我们真的必须使用复杂的自主软件代理吗?为了回答这个问题,我们构建了无代理——一种自动解决软件开发问题的无代理方法。原创 2024-07-09 14:52:40 · 146 阅读 · 0 评论 -
Becoming an Expert in a Complex Human System Through Behavior Simulation
大型语言模型(LLM)与各种推理强化方法相结合,在数学、法律、编码、常识和世界知识等领域表现出了与人类相当的非凡能力。在本文中,我们深入研究了LLM在复杂人类系统中的推理能力。我们利用基于生成代理的仿真技术,提出了一种新的推理框架,称为“马赛克专家观察墙”(MEOW)。在MEOW框架中,模拟数据用于训练专家模型,在每个独立的模拟时间内集中关于特定任务的“经验”。正是通过模拟积累的“经验”使专家能够在复杂的人类系统中完成任务。我们在一个反映真实世界安全场景的通信游戏中进行实验。原创 2024-06-30 12:03:09 · 62 阅读 · 0 评论 -
Explainable Clinical Decision Reasoning with LLM Disscusion via Argumentation Schemes
在临床推理中使用大型语言模型有两个主要障碍。首先,尽管LLM在自然语言处理(NLP)任务中表现出显著的前景,但它们在复杂推理和规划中的性能达不到预期。其次,LLM使用难以理解的方法来做出与临床医生的认知过程根本不同的临床决策。这导致了用户的不信任。在本文中,我们提出了一个名为ArgMedAgents的多智能体框架,旨在使基于LLM的智能体能够通过交互进行可解释的临床决策推理。原创 2024-06-28 16:51:02 · 84 阅读 · 0 评论 -
Bootstrapping Cognitive Agents with a Large Language Model
大型语言模型包含嘈杂的世界常识,但很难训练或微调。另一方面,认知架构具有出色的可解释性,并且可以灵活更新,但需要大量的手动工作来实例化。在这项工作中,我们将两全其美结合起来:将基于认知的模型与大型语言模型中编码的嘈杂知识进行引导。通过一个执行厨房任务的具体代理,我们表明,与完全基于大型语言模型的代理相比,我们提出的框架产生了更好的效率。我们的实验表明,大型语言模型是认知架构的良好信息来源,而认知架构反过来可以验证和更新大型语言模型在特定领域的知识。原创 2024-06-28 15:58:58 · 115 阅读 · 0 评论 -
An Architecture for Accountability and Explainability through Blockchain and Large Language Models
在涉及人类交互的环境中部署自主代理越来越引起安全问题。因此,了解事件背后的情况变得至关重要,需要开发能力,向非专家用户证明其行为的合理性。这种解释对于提高可信度和安全性至关重要。此外,它们有助于改善沟通,弥合代理和用户之间的差距,从而提高互动的有效性。这项工作提出了一个基于移动机器人操作系统(ROS)的机器人的可解释性和可解释性架构。所提出的解决方案由两个主要组成部分组成。首先,提供问责制的类似黑匣子的元素,通过区块链技术实现防篡改特性。原创 2024-06-28 14:15:33 · 87 阅读 · 0 评论 -
TWOSTEP: Multi-agent Task Planning using Classical Planners and Large Language Models
像规划领域定义语言(PDDL)这样的经典规划公式允许在给定初始状态(如果可能的话)的情况下保证实现目标状态的动作序列。然而,PDDL中定义的推理问题并没有捕捉到动作采取的时间方面,例如,如果域中的两个代理的后条件不干扰另一个的前条件,则它们可以同时执行一个动作。人类专家可以将目标分解为很大程度上独立的组成部分,并将每个代理分配给这些子目标中的一个子目标,以利用同步操作更快地执行计划步骤,每个步骤只使用单个代理规划。原创 2024-06-26 11:38:34 · 179 阅读 · 0 评论 -
VideoAgent: Long-form Video Understanding with Large Language Model as Agent
长格式视频理解是计算机视觉中的一个重大挑战,需要一个能够对长多模态序列进行推理的模型。受人类对长视频理解的认知过程的启发,我们强调交互式推理和规划,而不是处理长视频输入的能力。我们介绍了一种新的基于代理的系统VideoAgent,该系统使用大型语言模型作为中心代理来迭代识别和编译关键信息以回答问题,视觉语言基础模型作为翻译和检索视觉信息的工具。根据具有挑战性的EgoSchema和NExT-QA基准进行评估,VideoAgent在平均仅使用8.4和8.2帧的情况下,实现了54.1%和71.3%的零样本准确率。原创 2024-06-25 19:47:10 · 173 阅读 · 0 评论 -
Characteristic AI Agents via Large Language Models
大型语言模型(LLM)的发展显著提高了聊天机器人系统的性能。许多研究人员致力于开发聊天机器人的特性。虽然已经有使用LLM开发角色驱动聊天机器人的商业产品,但值得注意的是,这一领域的学术研究仍然相对较少。我们的研究重点是通过模拟不同环境中的真实个体,研究LLM在构建特征人工智能代理方面的性能。目前的调查主要集中在扮演简单角色上。为了应对这一研究空白,我们为特征人工智能代理任务创建了一个基准,包括数据集、技术和评估指标。原创 2024-06-02 00:15:48 · 211 阅读 · 0 评论 -
Diffusion for World Modeling: Visual Details Matter in Atari
世界模型构成了一种以安全和样本有效的方式训练强化学习主体的有前景的方法。最近的世界模型主要基于离散潜在变量序列来对环境动力学进行建模。然而,这种压缩为紧凑的离散表示可能会忽略对强化学习很重要的视觉细节。同时,扩散模型已经成为图像生成的主要方法,这对建模离散潜伏期的成熟方法提出了挑战。受这种范式转变的启发,我们引入了DIAMOND(作为环境梦想模型的扩散),这是一种在扩散世界模型中训练的强化学习代理。我们分析了使扩散适合世界建模所需的关键设计选择,并展示了改进的视觉细节如何提高代理性能。原创 2024-05-28 10:11:25 · 139 阅读 · 0 评论 -
Proxy-RLHF: Decoupling Generation and Alignment in Large Language Model with Proxy
从人类反馈中强化学习(RLHF)是确保大型语言模型(LLM)与人类价值观一致的主流方法。然而,现有的RLHF方法需要高计算成本,一个主要原因是RLHF同时将生成和对齐任务分配给LLM。在本文中,我们介绍了Proxy RLHF,它将LLM的生成和对齐过程解耦,以低得多的计算成本实现与人类价值观的对齐。我们从为对齐过程设计的一种新的马尔可夫决策过程(MDP)开始,并使用强化学习(RL)来训练一个简化的代理模型,该模型在不改变LLM本身的情况下监督LLM的token生成。原创 2024-05-24 10:21:38 · 113 阅读 · 0 评论 -
Automated Generation and Selection of State-Aware Guidelines for Large Language Model Agents
大型语言模型(LLM)的主要局限性是它们对世界的理解受到限制。这给基于LLM的代理带来了重大困难,尤其是在预训练的LLM缺乏足够知识的领域。在本文中,我们介绍了一种称为AutoGuide的新框架,该框架通过利用离线体验中的隐性知识来弥合预训练的LLM中的知识差距。具体而言,AutoGuide通过提取一组状态感知指南,有效地提取嵌入离线数据中的知识。重要的是,每一条状态感知指南都用简洁的自然语言表达,并遵循条件结构,清楚地描述了适用的状态。原创 2024-05-22 10:38:17 · 82 阅读 · 0 评论 -
Octopus v2: On-device language model for super agent
语言模型在各种软件应用程序中显示出了有效性,特别是在与自动工作流相关的任务中。这些模型具有调用函数的关键能力,这对创建人工智能代理至关重要。尽管大规模语言模型在云环境中具有很高的性能,但它们往往与隐私和成本问题有关。当前用于函数调用的设备上模型面临延迟和准确性问题。我们的研究提出了一种新方法,使具有20亿个参数的设备上模型在准确性和延迟方面都超过GPT-4,并将上下文长度减少95%。与具有基于RAG的函数调用机制的Llama-7B相比,我们的方法将延迟提高了35倍。原创 2024-05-20 09:50:58 · 135 阅读 · 0 评论 -
LONG-FORM FACTUALITY IN LARGE LANGUAGE MODELS
大型语言模型(LLM)在响应开放式主题的事实查询提示时,通常会生成包含事实错误的内容。为了在开放域中对模型的长期事实性进行基准测试,我们首先使用GPT-4生成LongFact,这是一个由跨越38个主题的数千个问题组成的提示集。然后,我们提出LLM代理可以通过一种我们称之为搜索增强事实评估器(SAFE)的方法用作长期事实性的自动评估器。SAFE利用LLM将长形式的响应分解为一组单独的事实,并使用多步骤推理过程评估每个事实的准确性,该推理过程包括向谷歌搜索发送搜索查询并确定搜索结果是否支持某个事实。原创 2024-05-16 10:54:15 · 129 阅读 · 0 评论 -
Understanding How People Customize, Interact, and Experience Personas in Large Language Models
摘要1 引言2 相关工作3 研究问题4 CLOCHAT5 用户研究6 定量结果7 定性结果8 讨论9 结论大型语言模型(LLM)在生成会话代理方面取得了重大进展,实现了跨不同主题的无缝、上下文相关的对话。然而,现有的LLM驱动的会话代理具有固定的个性和功能,限制了它们对个人用户需求的适应性。创建具有独特专业知识或特征的个性化代理角色可以解决这个问题。尽管如此,我们对人们如何定制和与代理角色交互缺乏了解。在这项研究中,我们调查了用户如何定制代理角色,以及它们对交互质量、多样性和动态性的影响。原创 2024-05-15 10:11:55 · 161 阅读 · 0 评论 -
LLMARENA: Assessing Capabilities of Large Language Models in Dynamic Multi-Agent Environments
大型语言模型(LLM)的最新进展揭示了它们在实现具有人类水平智能的自主主体方面的潜力。然而,评估LLM代理的现有基准要么使用静态数据集,可能导致数据泄露,要么只关注单个代理场景,忽略了多代理交互的复杂性。缺乏评估LLM代理在多智能体、动态环境中的不同能力的基准。为此,我们介绍了LLMARENA,这是一个新颖且易于扩展的框架,用于评估LLM在多智能体动态环境中的各种能力。原创 2024-05-01 19:50:59 · 251 阅读 · 0 评论 -
Beyond Lines and Circles: Unveiling the Geometric Reasoning Gap in Large Language Models
大型语言模型(LLM)在数学和算法任务方面表现出越来越强的能力,但其几何推理技能却没有得到充分的探索。我们研究LLM在构造性几何问题解决方面的能力,这是人类数学推理发展的最基本步骤之一。我们的工作揭示了最先进的LLM在这一领域面临的显著挑战,尽管在类似领域取得了许多成功。LLM在目标变量选择方面表现出偏见,并难以处理二维空间关系,经常歪曲和幻觉物体及其位置。为此,我们引入了一个框架,该框架制定了一个基于LLM的多代理系统,通过进行内部对话来增强其现有的推理潜力。原创 2024-04-03 13:06:17 · 80 阅读 · 0 评论 -
Assistive Large Language Model Agents for Socially-Aware Negotiation Dialogues
在这项工作中,我们的目标是开发LLM代理,以减轻多代理环境中谈判中违反社会规范的行为。我们通过让两个大型语言模型(LLM)在每次对话中扮演两个谈判者的角色来模拟真实世界的谈判。第三个LLM充当补救代理,重写违反规范的话语,以改善谈判结果。由于这是一项新颖的任务,因此无法获得手动构建的数据。为了解决这一限制,我们引入了一种基于价值影响的上下文学习(ICL)方法,为基于LLM的补救代理识别高质量的ICL示例,其中价值影响函数衡量谈判结果的质量。原创 2024-04-02 10:51:37 · 103 阅读 · 0 评论