
Causal and Reasoning
文章平均质量分 70
该专栏主要整理LLM causal和reasoning相关的paper
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
Harnessing the Reasoning Economy A Survey of Efficient Reasoning for Large Language Models
本文系统探讨了大型语言模型(LLMs)在推理任务中的推理经济性问题,即在提升推理能力的同时优化计算成本。基础分析训练后方法:通过监督微调(SFT)和强化学习(RL)塑造模型行为,如过程奖励模型(PRM)和结果奖励模型(ORM)的设计。测试时策略:并行方法(如自洽性)和顺序方法(如思维链、树搜索)的对比与优化。挑战分析模型行为低效:长度偏差(冗余推理)、欺骗性思维(表面推理但无效)。测试时资源浪费:算法选择不当(如固定采样策略)、计算预算分配不合理。解决方案训练后优化数据:构建高质量推理数据集。原创 2025-04-26 09:30:00 · 118 阅读 · 0 评论 -
Why We Feel: Breaking Boundaries in Emotional Reasoning with Multimodal Large Language Models
大多数现有的情感分析都侧重于哪种情感出现(例如,快乐、悲伤、愤怒),但忽略了更深层次的原因。我们提出情感解释(EI),重点关注驱动情感反应的因果因素,这些因素既可以是显性的(例如,可观察到的物体、人际互动),也可以是隐性的(例如,文化背景、画面外的事件)。与传统的情感识别不同,EI任务需要对触发因素进行推理,而不仅仅是进行标注。为了推动EI研究,我们展示了EIBench,这是一个大规模的基准测试,包含1615个基本EI样本和50个具有多方面情感的复杂EI样本。每个实例都需要基于推理的解释,而不是简单的分类。原创 2025-04-21 09:30:00 · 174 阅读 · 0 评论 -
Benchmarking Systematic Relational Reasoning with Large Language and Reasoning Models
大语言模型(LLMs)被发现难以进行系统推理。即使在它们看似表现良好的任务上,其性能往往也依赖于捷径,而非真正的推理能力,这导致它们在分布外的示例上表现崩溃。最近,基于强化学习和思维链提示的后训练策略被视为一种突破性进展。然而,除了在数学和编程领域的问题解决中,人们对由此产生的“大推理模型”(LRMs)的潜力仍知之甚少,在这些领域中找到真正的分布外问题可能很困难。在本文中,我们专注于需要对关系组合进行系统推理的任务,特别是定性空间和时间推理。这些任务使我们能够控制问题实例的难度,并精确衡量模型的泛化程度。原创 2025-04-18 09:30:00 · 83 阅读 · 0 评论 -
FeRG-LLM : Feature Engineering by Reason Generation Large Language Models
表格数据机器学习中的关键任务之一是特征工程。尽管它对提升模型性能至关重要,但需要大量的专业知识和深入的领域知识,是一项劳动密集型工作。为解决这一问题,我们提出了一种新颖的框架FeRG - LLM(基于推理生成的大语言模型特征工程),这是一个80亿参数规模的大语言模型,旨在自动执行特征工程。我们构建了两阶段的对话,使语言模型能够分析机器学习任务并发现新特征,展现其思维链(CoT)能力。原创 2025-04-17 09:30:00 · 105 阅读 · 0 评论 -
Large Language Models Are Better Logical Fallacy Reasoners with Counterargument, Explanation
大语言模型(LLMs)的发展极大地提升了我们处理复杂语言的能力。然而,准确检测逻辑谬误仍然是一项重大挑战。本研究提出了一种新颖且有效的逻辑谬误检测提示制定方法,适用于有监督(微调)和无监督(零样本)设置。我们的方法通过融入隐含上下文信息(反论点、解释和目标)来丰富输入文本,这些信息是我们在论点背景下对其有效性进行查询的依据。然后,我们根据置信度分数对这些查询进行排序,为分类提供参考。我们使用GPT和LLaMA系列模型,在来自5个领域的多个数据集上对我们的方法进行评估,这些数据集涵盖29种不同的谬误类型。原创 2025-04-17 08:30:00 · 110 阅读 · 0 评论 -
JudgeLRM: Large Reasoning Models as a Judge
大型语言模型(LLM)作为评估者的兴起为人工标注提供了可扩展的替代方案,但现有针对评估者的监督微调(SFT)方法在需要复杂推理的领域往往表现不足。在这项工作中,我们研究了LLM评估者是否真正受益于增强的推理能力。通过对评估任务中推理需求的详细分析,我们发现SFT的性能提升与高推理需求样本的比例呈负相关,突显了SFT在此类场景中的局限性。为解决这一问题,我们引入JudgeLRM,这是一系列通过强化学习(RL)训练的面向判断的LLM,采用基于评估者的结果驱动奖励机制。原创 2025-04-14 09:30:00 · 155 阅读 · 0 评论 -
Video-R1: Reinforcing Video Reasoning in MLLMs
本文针对多模态大语言模型(MLLMs)在视频推理任务中的不足,提出了Video-R1模型,旨在通过强化学习(RL)范式系统性提升模型的视频推理能力。现有方法在视频推理中面临两个核心挑战:缺乏时间建模能力和高质量视频推理数据稀缺。首次系统性探索R1范式在视频推理中的应用,提出Video-R1模型。T-GRPO算法通过对比学习显式建模时间信息,解决传统RL缺乏时间归纳偏置的问题。构建混合数据集,结合图像和视频数据,缓解视频推理数据稀缺性,增强模型泛化能力。实验验证。原创 2025-04-13 08:30:00 · 138 阅读 · 0 评论 -
Fin-R1: A Large Language Model for Financial Reasoning through Reinforcement Learning
模型设计Fin-R1是一个专为金融领域设计的轻量级大语言模型(70亿参数),通过监督微调(SFT)和强化学习(RL)两阶段训练框架,解决金融推理中的核心问题。数据集构建提出了高质量金融推理数据集,包含60,091条多维度金融知识样本,涵盖中文和英文双语内容,通过数据蒸馏和过滤确保准确性。训练方法监督微调(SFT):基于Qwen2.5-7B-Instruct模型,优化金融推理能力。强化学习(RL)原创 2025-04-03 08:30:00 · 175 阅读 · 0 评论 -
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models
大型语言模型(LLMs)在复杂任务中展现出卓越能力。近期,OpenAI o1和DeepSeek-R1等大型推理模型(LRMs)通过监督微调(SFT)和强化学习(RL)技术优化思维链(CoT)推理,进一步提升了数学、编程等System-2推理领域的性能。然而,较长的CoT推理序列虽能提高准确性,但冗余的输出会导致显著的计算开销,即“过度思考现象”。高效推理旨在优化推理长度同时保留能力,可降低计算成本并提升实时应用响应速度。尽管潜力巨大,高效推理仍处于研究初期。原创 2025-03-31 10:48:31 · 238 阅读 · 0 评论 -
LLM+AL: Bridging Large Language Models and Action Languages for Complex Reasoning About Actions
大语言模型(LLMs)在各种智能任务中取得了显著进展,但在需要系统搜索的复杂行动推理任务上仍存在困难。为解决这一局限,我们提出一种方法,将大语言模型的自然语言理解能力与行动语言的符号推理优势相结合。我们的方法称为LLM+AL,它利用大语言模型在语义解析和常识知识生成方面的优势,以及行动语言基于编码知识进行自动推理的能力。我们使用复杂行动推理基准测试,将LLM+AL与最先进的大语言模型(包括CHATGPT-4、CLAUDE 3 OPUS、GEMINI ULTRA 1.0和O1-PREVIEW)进行比较。原创 2025-03-26 09:30:00 · 121 阅读 · 0 评论 -
BoostStep: Boosting Mathematical Capability of Large Language Models via Improved Single-step
大语言模型(LLMs)在通过多步推理解决复杂数学问题方面展现出了令人瞩目的能力,并且可以通过精心设计的上下文学习(ICL)示例进一步提升。然而,这种潜力常常受到ICL中的两个主要挑战的限制:粒度不匹配和无关信息。我们观察到,虽然大语言模型擅长分解数学问题,但它们在细粒度步骤的推理中常常出现错误。此外,在问题级别检索到的ICL示例可能会省略关键步骤,甚至用无关的细节误导模型。原创 2025-03-25 08:30:00 · 29 阅读 · 0 评论 -
Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?
最近,o1-like模型受到了广泛关注,这些模型通过生成长思维链(CoT)推理步骤来提高现有大语言模型(LLMs)的推理能力。在本文中,为了理解这些长CoT的质量,并衡量现有LLMs对这些长CoT的批判能力,我们引入了DeltaBench。DeltaBench包含了不同o1-like模型(如QwQ、DeepSeek-R1)针对不同推理任务(如数学、代码、通用推理)生成的长CoT,用于衡量在长CoT推理中检测错误的能力。原创 2025-03-24 09:30:00 · 127 阅读 · 0 评论 -
START: Self-taught Reasoner with Tools
大型推理模型(LRM)如OpenAI-o1和DeepSeek-R1通过使用长思维链(CoT)在复杂推理任务中表现出显著能力。然而,这些模型由于仅依赖内部推理过程,往往会出现幻觉和效率低下的问题。在本文中,我们介绍了START(带工具的自学习推理器),这是一种新型的工具集成长CoT推理LLM,通过利用外部工具显著增强了推理能力。通过代码执行,START能够执行复杂计算、自我检查、探索多种方法和自我调试,从而解决LRM的局限性。原创 2025-03-13 08:30:00 · 138 阅读 · 0 评论 -
Self-rewarding correction for mathematical reasoning
我们研究了具有自奖励推理能力的大语言模型(LLMs),这类模型能够在推理时,在没有外部反馈的情况下,逐步生成推理过程,并评估输出的正确性。这种一体化的方法,使单个模型能够独立地引导其推理过程,为模型部署带来了计算优势。我们特别关注自我修正这一具有代表性的任务,在这个任务中,模型能够自主检测其回答中的错误、修改输出,并决定何时终止迭代优化循环。为了实现这一目标,我们提出了一种两阶段算法框架,仅使用模型自身生成的数据,构建具有自奖励推理能力的模型。原创 2025-03-12 11:00:00 · 138 阅读 · 0 评论 -
SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution
最近DeepSeek-R1的发布展示了强化学习(RL)在提升大语言模型(LLMs)通用推理能力方面的巨大潜力。虽然DeepSeek-R1及后续工作主要聚焦于将RL应用于竞赛编程和数学问题,但本文介绍了SWE-RL,这是第一种将基于RL的LLM推理扩展到实际软件工程中的方法。原创 2025-03-12 09:30:00 · 165 阅读 · 0 评论 -
Self-Training Elicits Concise Reasoning in Large Language Models
思维链(CoT)推理使大语言模型(LLMs)能够通过中间token进行额外计算,以解决复杂任务。然而,我们认为典型的推理过程包含许多冗余token,导致了额外的推理成本。通过研究当前大语言模型的输出分布,我们发现它们相较于默认行为,具备更简洁推理的潜在能力。为激发这种能力,我们提出了简单的微调方法,在特定任务设置中,利用通过N选1采样(best-of-N sampling)和少样本条件设定(few-shot conditioning)生成的自生成简洁推理路径。原创 2025-03-08 09:30:00 · 158 阅读 · 0 评论 -
Meta-Reasoner: Dynamic Guidance for Optimized Inference-time Reasoning in Large Language Models
大语言模型(LLMs)越来越依赖冗长的推理链来解决复杂任务。然而,这种试错方法往往会导致高昂的计算成本和错误传播,早期的错误可能会使后续步骤偏离正轨。为解决这些问题,我们引入了Meta-Reasoner框架,它通过让大语言模型 “思考如何思考” 来动态优化推理时的推理过程。受人类元认知和双过程理论的启发,Meta-Reasoner就像一个战略顾问,将高级指导与逐步生成过程分离。原创 2025-03-05 09:22:03 · 373 阅读 · 0 评论 -
Emergent Symbolic Mechanisms Support Abstract Reasoning in Large Language Models
最近的许多研究都发现了大语言模型中出现推理能力的证据,但对于这些能力的稳健性,以及它们在多大程度上依赖于结构化推理机制,仍存在争议。为了阐明这些问题,我们对支持开源语言模型 Llama3-70B 中抽象规则归纳的内部机制进行了全面研究。我们识别出一种新兴的符号架构,它通过一系列三个计算步骤来实现抽象推理。在早期层中,符号抽象头基于输入token之间的关系将其转换为抽象变量。在中间层中,符号归纳头对这些抽象变量进行序列归纳。最后,在后期层中,检索头通过检索与预测的抽象变量相关联的值来预测下一个token。原创 2025-03-05 09:00:00 · 87 阅读 · 0 评论 -
Competitive Programming with Large Reasoning Models
我们发现,应用于大型语言模型(LLM)的强化学习显著提高了复杂编码和推理任务的性能。此外,我们将两种通用推理模型——OpenAI o1和o3的早期检查点——与特定领域的系统o1-ioi进行了比较,o1-ioi使用了为参加2024年国际信息学奥林匹克竞赛(IOI)而设计的人工推理策略。我们在IOI 2024上与o1-IOI进行了现场比赛,并使用手工制作的测试时间策略,排名第49位。在宽松的比赛限制下,奥获得了一枚金牌。原创 2025-02-24 09:00:00 · 234 阅读 · 0 评论 -
Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach
我们研究了一种新的语言模型架构,该架构能够通过潜在空间中的隐式推理来缩放测试时间计算。我们的模型通过迭代一个循环块来工作,从而在测试时展开到任意深度。这与通过产生更多token来扩展计算的主流推理模型形成鲜明对比。与基于思维链的方法不同,我们的方法不需要任何专门的训练数据,可以在小的上下文窗口中工作,并且可以捕获不易用语言表示的推理类型。我们将概念验证模型扩展到35亿个参数和8000亿个token。我们证明,由此产生的模型可以提高其在推理基准上的性能,有时甚至可以显著提高,计算负载相当于500亿个参数。原创 2025-02-23 10:00:00 · 64 阅读 · 0 评论 -
Efficient Reasoning with Hidden Thinking
思维链(CoT)推理已成为提高多模态大型语言模型(MLLM)复杂问题解决能力的强大框架。然而,文本推理的冗长性质导致了显著的效率低下。在这项工作中,我们提出了Heima(作为隐藏的llama),这是一种高效的推理框架,利用隐藏潜在空间的推理CoT。我们设计了Heima编码器,使用单个思维token将每个中间CoT压缩成一个紧凑的、更高级的隐藏表示,有效地减少了冗长,减少了推理过程中所需的token总数。原创 2025-02-18 10:00:00 · 119 阅读 · 0 评论 -
LIMO: Less is More for Reasoning
我们提出了一个基本发现,挑战了我们对大型语言模型中复杂推理如何出现的理解。虽然传统观点认为,复杂的推理任务需要大量的训练数据(通常超过10万个例子),但我们证明了一个惊人的现象:复杂的数学推理能力可以用少得惊人的例子有效地激发出来。这一发现不仅挑战了海量数据需求的假设,也挑战了监督微调主要导致记忆而非泛化的普遍信念。通过综合实验,我们提出的模型LIMO在数学推理方面表现出了前所未有的性能和效率。原创 2025-02-22 09:00:00 · 44 阅读 · 0 评论 -
Large Language Model-Enhanced Symbolic Reasoning for Knowledge Base Completion
将大型语言模型(LLM)与基于规则的推理相结合,为提高知识库补全(KBC)的灵活性和可靠性提供了一种强大的解决方案。传统的基于规则的KBC方法提供了可验证的推理,但缺乏灵活性,而LLM提供了很强的语义理解,但存在幻觉。为了将LLM的理解能力与基于规则的方法的逻辑性和严谨性相结合,我们提出了一种由子图提取器、LLM提议器和规则推理器组成的新框架。子图提取器首先从知识库中采样子图。然后,LLM使用这些子图来提出有助于推断缺失事实的多样化和有意义的规则。原创 2025-02-21 09:00:00 · 34 阅读 · 0 评论 -
rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking
我们提出rStar Math来证明小型语言模型(SLM)可以与OpenAI o1的数学推理能力相媲美甚至超越,而无需从高级模型中提炼出来。rStar Math通过蒙特卡洛树搜索(MCTS)进行“深度思考”来实现这一目标,其中数学策略SLM在基于SLM的过程奖励模型的指导下执行测试时间搜索。rStar Math引入了三项创新来应对训练两个SLM的挑战:(1)一种新的代码增强CoT数据合成方法,该方法执行广泛的MCTS部署,以生成用于训练策略SLM的逐步验证推理轨迹;原创 2025-02-14 10:00:00 · 181 阅读 · 0 评论 -
Improving Multi-Step Reasoning Abilities of Large Language Models with Direct Advantage
本文是LLM系列文章,针对《Improving Multi-Step Reasoning Abilities of Large Language Models with Direct Advantage Policy Optimization》的翻译。强化学习(RL)在增强大型语言模型(LLM)推理方面的作用越来越重要。尽管强化学习在许多场景中取得了成功,但在改进LLM的推理方面仍然存在许多挑战。一个挑战是稀疏的奖励,这使得RL难以进行优化,并且需要大量的数据样本。另一个挑战源于RL固有的不稳定性,特别原创 2025-02-02 10:00:00 · 176 阅读 · 0 评论 -
Toward Adaptive Reasoning in Large Language Models with Thought Rollback
大型语言模型(LLM)已被常规用于使用逐步推理来解决各种任务。然而,中间推理步骤或思想的结构是刚性和单向的,如链、树或无环有向图。因此,当LLM经常给出错误的反应,即“幻觉”时,由此产生的僵化和只向前的推理可能无法解决具有挑战性的任务,并失败。本文提出了一种新的推理框架,称为思维回滚(TR),允许LLM自适应地构建思维结构,同时保持对“幻觉”下问题解决的有效推理。TR的核心机制是回滚思想,它允许LLM对思想进行错误分析,从而回滚到任何以前错误的思想进行修改。原创 2025-01-30 10:00:00 · 194 阅读 · 0 评论 -
Can Large Language Models Reason about the Region Connection Calculus?
定性空间推理是知识表示和推理的一个深入研究的领域,具有从地理信息系统到机器人和计算机视觉的多种应用。最近,人们对大型语言模型(LLM)的推理能力提出了许多主张。在这里,我们研究了一组代表性的LLM在分体拓扑区域连接演算(RCC-8)上执行经典定性空间推理任务的程度。我们使用最先进的LLM进行了三对实验(成分表的重建、与人类成分偏好的对齐、概念邻域重建);在每一对中,一个实验使用同名关系,另一个实验使用匿名关系(以测试LLM对训练期间获得的关系名称知识的依赖程度)。原创 2025-01-02 09:15:00 · 123 阅读 · 0 评论 -
AtomR: Atomic Operator-Empowered Large Language Models for Heterogeneous Knowledge Reasoning
大型语言模型(LLM)的最新进展导致了各种自然语言处理任务的显著改进,但由于LLM在推理规划和幻觉问题上的无效性,LLM在执行知识密集型复杂问题时仍然具有挑战性。一个典型的解决方案是采用检索增强生成(RAG)结合思维链(CoT)推理,将复杂问题分解为链状子问题,并在每个子问题上应用迭代RAG。然而,先前的工作表现出次优的推理规划,忽视了从异构源进行动态知识检索。在本文中,我们提出了AtomR,这是一种在原子级别进行多源推理的新型异构知识推理框架。原创 2024-12-29 09:15:00 · 143 阅读 · 0 评论 -
Forest-of-Thought: Scaling Test-Time Compute for Enhancing LLM Reasoning
大型语言模型(LLMs)在各种语言任务中表现出了非凡的能力,但解决复杂的推理问题仍然是一个挑战。虽然现有的方法,如思维链(CoT)和思维树(ToT),通过分解问题或构建提示来增强推理,但它们通常只执行一次推理,可能无法重新访问有缺陷的路径,从而影响准确性。为了解决这个问题,我们提出了一种新的推理框架,称为思想森林(FoT),它集成了多个推理树,以利用集体决策来解决复杂的逻辑问题。FoT利用稀疏激活策略来选择最相关的推理路径,提高了效率和准确性。原创 2024-12-23 09:15:00 · 433 阅读 · 0 评论 -
Patience Is The Key to Large Language Model Reasoning
大型语言模型领域的最新进展,特别是通过思想链(CoT)方法,已经证明在解决复杂问题方面取得了显着的进步。然而,现有模型要么由于用户偏好而倾向于牺牲详细推理以求简洁,要么需要大量且昂贵的训练数据来学习复杂的推理能力,限制了它们解决复杂任务的潜力。为了弥补这一差距,遵循缩放测试时间的概念,我们提出了一种简单的方法,鼓励模型采用更耐心的推理风格,而不需要引入新的知识或技能。为了采用偏好优化方法,我们生成详细的推理过程作为正例,生成简单的答案作为反例,从而训练模型以支持其响应的彻底性。原创 2024-12-16 10:15:00 · 253 阅读 · 0 评论 -
Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions
目前,OpenAI o1引发了人们对大型推理模型(LRM)研究的兴趣。基于这一势头,Marco-o1不仅专注于具有标准答案的学科,如数学、物理和编码,这些学科非常适合强化学习(RL),而且更加重视开放式解决方案。我们的目标是解决这个问题:“o1模型能否有效地推广到缺乏明确标准、奖励难以量化的更广泛领域?”Marco-o1由思维链(CoT)微调、蒙特卡洛树搜索(MCTS)、反射机制和创新推理策略驱动,针对复杂的现实世界问题解决任务进行了优化。原创 2024-12-02 10:15:00 · 503 阅读 · 0 评论 -
Automated Theorem Provers Help Improve Large Language Model Reasoning
在本文中,我们演示了逻辑编程系统和自动一阶逻辑定理证明器 (ATP) 如何提高逻辑推理任务的大型语言模型 (LLM) 的准确性,其中基线性能由直接 LLM 解决方案给出。我们首先使用 PRONTOQA 基准评估压路机问题上的 LLM 推理。我们展示了如何通过神经符号架构来提高准确性,其中LLM仅充当将给定问题转换为形式逻辑语言的前端,并调用自动推理引擎来解决它。然而,这种方法关键取决于LLM翻译的正确性。为了评估翻译的正确性,我们其次定义了句法和语义错误类别的框架。原创 2024-11-26 10:15:00 · 348 阅读 · 0 评论 -
A COMPARATIVE STUDY ON REASONING PATTERNS OF OPENAI’S O1 MODEL
使大型语言模型(LLM)能够处理更广泛的复杂任务(例如编码、数学)引起了许多研究人员的极大关注。随着LLM的不断发展,增加模型参数的数量会降低性能改进和计算成本。最近,OpenAI的o1模型表明,推理策略(即测试时计算方法)也可以显著增强LLM的推理能力。然而,这些方法背后的机制尚未被探索。在我们的工作中,为了研究o1的推理模式,我们使用OpenAI的GPT-4o作为三个领域(即数学、代码和常识推理)的一般推理基准的骨干,将o1与现有的测试时计算方法(BoN、逐步BoN、代理工作流和自精炼)进行了比较。原创 2024-10-22 09:00:00 · 214 阅读 · 0 评论 -
Survey on Reasoning Capabilities and Accessibility of Large Language Models Using Biology-related
本研究论文讨论了过去十年在生物医学和大型语言模型方面取得的进展。为了了解这些进步是如何相互携手的,本文还讨论了自然语言处理技术和工具与生物医学的整合。最后,该论文的目标是通过为前两种语言模型引入新的问题和提示列表,来扩展去年(2023 年)进行的一项调查。通过这项调查,本文试图量化 LLM 推理能力的改进,以及普通用户对这些改进的感受程度。此外,本文旨在通过促使 LLM 深入回答开放式问题来扩展对生物文献检索的研究。原创 2024-10-18 09:45:00 · 141 阅读 · 0 评论 -
Mind’s Eye of LLMs: Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models
大型语言模型(LLMs)在语言理解和各种推理任务中表现出了令人印象深刻的性能。然而,他们在空间推理方面的能力,作为人类认知的一个关键方面,仍然相对未被探索。人类拥有非凡的能力,通过一种称为“心灵之眼”的过程,创造出看不见的物体和行为的心理图像,从而能够想象看不见世界。受这种认知能力的启发,我们提出了思维可视化(VoT)提示。VoT旨在通过可视化LLM的推理痕迹来引发LLM的空间推理,从而指导后续的推理步骤。我们将VoT用于多跳空间推理任务,包括自然语言导航、视觉导航和2D网格世界中的视觉拼接。原创 2024-09-04 19:54:21 · 275 阅读 · 0 评论 -
LLM AS A MASTERMIND: A SURVEY OF STRATEGIC REASONING WITH LARGE LANGUAGE MODELS
本文对大型语言模型(LLM)在战略推理中的现状和机遇进行了全面的调查,这是一种复杂的推理形式,需要理解和预测多智能体环境中的对手行为,同时相应地调整策略。战略推理的特点是它关注多主体之间互动的动态性和不确定性,理解环境和预测他人的行为至关重要。我们探索了与LLM战略推理相关的范围、应用、方法和评估指标,强调了该领域的蓬勃发展以及提高其决策表现的跨学科方法。它旨在系统化和澄清关于这一主题的分散文献,提供系统综述,强调战略推理作为一种关键认知能力的重要性,并为未来的研究方向和潜在的改进提供见解。原创 2024-08-26 17:24:08 · 233 阅读 · 0 评论 -
LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models
最近开发的大型语言模型(LLM)已被证明在广泛的语言理解任务中表现出色。但是,他们真的能“推理”自然语言吗?这个问题一直受到广泛的研究关注,许多推理技巧,如常识、数值和定性,都得到了研究。然而,与“逻辑推理”相关的关键技能仍未得到充分探索。现有的研究LLM这种推理能力的工作只集中在命题逻辑和一阶逻辑的几个推理规则(如模式子和模式子)上。针对上述局限性,我们综合评估了LLM在跨越命题逻辑、一阶逻辑和非单调逻辑的25种不同推理模式上的逻辑推理能力。原创 2024-08-26 09:50:48 · 362 阅读 · 0 评论 -
Causal Agent based on Large Language Model
大型语言模型(LLM)在各个领域都取得了重大成功。然而,因果问题和因果理论的内在复杂性给用自然语言准确描述它们带来了挑战,使LLM难以有效地理解和使用它们。因果方法不容易通过自然语言传达,这阻碍了LLM准确应用它们的能力。此外,因果数据集通常是表格形式的,而LLM在处理自然语言数据方面表现出色,造成了结构不匹配,阻碍了使用表格数据进行有效推理。因果推理能力的缺乏限制了LLM的发展。为了应对这些挑战,我们在一个名为因果代理的代理框架内为LLM配备了因果工具,使其能够解决因果问题。原创 2024-08-20 17:28:14 · 225 阅读 · 0 评论 -
Paraphrase and Solve: Exploring and Exploiting the Impact of Surface Form on Mathematical Reasoning
本文研究了数学问题的表面形式与其在大型语言模型中的可解性之间的关系。我们发现,表面形式的细微变化会显著影响答案分布和解决率,暴露出语言模型在通过复杂问题进行推理时对表面形式缺乏鲁棒性和敏感性。为了提高数学推理性能,我们提出了自洽Paraphrases(SCoP),它使推理路径从问题的特定表面形式多样化。我们在三个大型语言模型的四个数学推理基准上评估了我们的方法,并表明SCoP比普通自一致性提高了数学推理性能,特别是对于最初被认为无法解决的问题。原创 2024-08-13 20:00:21 · 55 阅读 · 0 评论 -
Evaluating Interventional Reasoning Capabilities of Large Language Models
许多决策任务需要估计干预措施对系统不同部分的因果影响。随着从业者考虑使用大型语言模型(LLM)来自动化决策,研究它们的因果推理能力变得至关重要。最近的一项工作评估了LLM检索常识因果事实的能力,但这些评估并没有充分评估LLM如何推理干预措施。受干预在因果推理中的作用的启发,在本文中,我们进行了实证分析,以评估LLM是否能够准确地更新他们对数据生成过程的知识,以应对干预。我们创建了跨越不同因果图(如混淆、中介)和变量类型的基准,并能够研究基于干预的推理。原创 2024-07-30 10:20:09 · 105 阅读 · 0 评论