
Causal and Reasoning
文章平均质量分 72
该专栏主要整理LLM causal和reasoning相关的paper
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Causal-aware Large Language Models: Enhancing Decision-Making Through Learning, Adapting and Acting
大语言模型(LLMs)在决策领域展现出巨大潜力,但预训练模型存在推理能力不足、难以适应新环境的问题,严重制约了其在复杂现实任务中的应用。现有方法如强化学习(RL)单独使用或LLM辅助RL的方式,仍依赖token预测范式,缺乏结构化推理和快速适应性。大语言模型(LLMs)因其存储的海量知识,在决策领域展现出巨大潜力。然而,这些预训练模型往往缺乏推理能力,难以适应新环境,进一步阻碍了它们在复杂现实任务中的应用。原创 2025-06-17 08:30:00 · 61 阅读 · 0 评论 -
PhySense: Principle-Based Physics Reasoning Benchmarking for Large Language Models
大型语言模型(LLMs)发展迅速,日益能够解决包括物理学在内的复杂科学问题。尽管如此,当前LLMs往往无法模仿人类专家简洁、基于原理的推理特点,而是生成冗长且不透明的解决方案。这种差异凸显了它们在应用核心物理原理进行高效且可解释的问题解决方面的关键能力差距。为了系统地研究这一局限性,我们引入了PhySense,这是一个新颖的基于原理的物理推理基准。该基准设计为专家使用指导原理可轻松解决,但对于没有基于原理优先推理的LLMs来说却看似简单实则困难。原创 2025-06-14 08:30:00 · 123 阅读 · 0 评论 -
Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models
指令遵循对于使大型语言模型(LLMs)与用户意图保持一致至关重要。尽管最近面向推理的模型在复杂数学问题上表现出令人印象深刻的性能,但它们遵循自然语言指令的能力仍未得到充分探索。在这项工作中,我们引入了MathIF,这是一个专门用于评估数学推理任务中指令遵循能力的基准。我们的实证分析揭示了推理能力扩展与保持可控性之间的持续矛盾,因为推理更有效的模型往往难以遵守用户指令。我们发现,在蒸馏的长思维链上进行微调或使用面向推理的强化学习训练的模型,其指令遵循能力通常会下降,尤其是在生成长度增加时。原创 2025-06-05 08:30:00 · 433 阅读 · 0 评论 -
APOLLO: Automated LLM and Lean Collaboration for Advanced Formal Reasoning
本文提出了APOLLO系统,这是一种将大型语言模型(LLM)与Lean形式验证系统相结合的自动化定理证明框架,旨在解决传统方法中LLM生成证明效率低、错误率高的问题。APOLLO通过模块化流程实现了对LLM生成证明的自动化修复,具体包括语法修正(Syntax Refiner)、错误块隔离(Sorrifier)、自动求解(Auto Solver)和递归修复(Recursive repair)等步骤。原创 2025-06-04 09:30:00 · 146 阅读 · 0 评论 -
Grokking in the Wild: Data Augmentation for Real-World Multi-Hop Reasoning with Transformers
Transformer在众多自然语言处理任务中取得了巨大成功,但其在多步事实推理中仍存在显著不足,尤其是在真实世界知识稀疏的场景下。近期关于“grokking”的研究表明,神经网络一旦检测到潜在逻辑模式,就能从记忆阶段过渡到完全泛化阶段——但这些研究主要基于小规模合成任务。本文首次将grokking扩展到真实世界事实数据,并通过精心设计的合成数据增强现有知识图谱,将推理事实与原子事实的比例ϕr\phi_rϕr提升至触发grokking所需的阈值以上,从而解决数据集稀疏性问题。原创 2025-05-20 08:30:00 · 97 阅读 · 0 评论 -
Tina: Tiny Reasoning Models via LoRA
原创 2025-05-17 08:30:00 · 156 阅读 · 0 评论 -
xVerify: Efficient Answer Verifier for Reasoning Model Evaluations
原创 2025-05-14 08:30:00 · 106 阅读 · 0 评论 -
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
原创 2025-05-11 09:30:00 · 127 阅读 · 0 评论 -
WebThinker: Empowering Large Reasoning Models with Deep Research Capability
原创 2025-05-10 09:30:00 · 179 阅读 · 0 评论 -
Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math
思维链(Chain-of-Thought, CoT)通过训练大语言模型(LLMs)显式生成中间推理步骤,显著增强了其形式推理能力。虽然大语言模型很容易从这些技术中受益,但由于小语言模型(SLMs)的模型容量有限,提升其推理能力仍然具有挑战性。最近,Deepseek-R1(Luo等人,2025年)的研究表明,从大语言模型生成的合成数据中进行蒸馏,可以大幅提升小语言模型的推理能力。然而,具体的建模方法并未公开。原创 2025-05-10 08:30:00 · 117 阅读 · 0 评论 -
Enhancing Large Language Models through Neuro-Symbolic Integration and Ontological Reasoning
大语言模型(LLMs)在自然语言处理方面展现出令人印象深刻的能力,但存在被称为“幻觉”的不准确和逻辑不一致问题。这损害了它们的可靠性,尤其是在需要事实准确性的领域。我们提出一种神经符号方法,将符号本体推理和机器学习方法相结合,以增强LLM输出的一致性和可靠性。我们的工作流程利用OWL本体、用于一致性检查的符号推理器(如HermiT)以及用于将自然语言语句映射为与本体兼容的逻辑形式的轻量级机器学习模型(逻辑回归)。原创 2025-05-04 08:30:00 · 132 阅读 · 0 评论 -
Harnessing the Reasoning Economy A Survey of Efficient Reasoning for Large Language Models
本文系统探讨了大型语言模型(LLMs)在推理任务中的推理经济性问题,即在提升推理能力的同时优化计算成本。基础分析训练后方法:通过监督微调(SFT)和强化学习(RL)塑造模型行为,如过程奖励模型(PRM)和结果奖励模型(ORM)的设计。测试时策略:并行方法(如自洽性)和顺序方法(如思维链、树搜索)的对比与优化。挑战分析模型行为低效:长度偏差(冗余推理)、欺骗性思维(表面推理但无效)。测试时资源浪费:算法选择不当(如固定采样策略)、计算预算分配不合理。解决方案训练后优化数据:构建高质量推理数据集。原创 2025-04-26 09:30:00 · 141 阅读 · 0 评论 -
Why We Feel: Breaking Boundaries in Emotional Reasoning with Multimodal Large Language Models
大多数现有的情感分析都侧重于哪种情感出现(例如,快乐、悲伤、愤怒),但忽略了更深层次的原因。我们提出情感解释(EI),重点关注驱动情感反应的因果因素,这些因素既可以是显性的(例如,可观察到的物体、人际互动),也可以是隐性的(例如,文化背景、画面外的事件)。与传统的情感识别不同,EI任务需要对触发因素进行推理,而不仅仅是进行标注。为了推动EI研究,我们展示了EIBench,这是一个大规模的基准测试,包含1615个基本EI样本和50个具有多方面情感的复杂EI样本。每个实例都需要基于推理的解释,而不是简单的分类。原创 2025-04-21 09:30:00 · 188 阅读 · 0 评论 -
Benchmarking Systematic Relational Reasoning with Large Language and Reasoning Models
大语言模型(LLMs)被发现难以进行系统推理。即使在它们看似表现良好的任务上,其性能往往也依赖于捷径,而非真正的推理能力,这导致它们在分布外的示例上表现崩溃。最近,基于强化学习和思维链提示的后训练策略被视为一种突破性进展。然而,除了在数学和编程领域的问题解决中,人们对由此产生的“大推理模型”(LRMs)的潜力仍知之甚少,在这些领域中找到真正的分布外问题可能很困难。在本文中,我们专注于需要对关系组合进行系统推理的任务,特别是定性空间和时间推理。这些任务使我们能够控制问题实例的难度,并精确衡量模型的泛化程度。原创 2025-04-18 09:30:00 · 96 阅读 · 0 评论 -
FeRG-LLM : Feature Engineering by Reason Generation Large Language Models
表格数据机器学习中的关键任务之一是特征工程。尽管它对提升模型性能至关重要,但需要大量的专业知识和深入的领域知识,是一项劳动密集型工作。为解决这一问题,我们提出了一种新颖的框架FeRG - LLM(基于推理生成的大语言模型特征工程),这是一个80亿参数规模的大语言模型,旨在自动执行特征工程。我们构建了两阶段的对话,使语言模型能够分析机器学习任务并发现新特征,展现其思维链(CoT)能力。原创 2025-04-17 09:30:00 · 123 阅读 · 0 评论 -
Large Language Models Are Better Logical Fallacy Reasoners with Counterargument, Explanation
大语言模型(LLMs)的发展极大地提升了我们处理复杂语言的能力。然而,准确检测逻辑谬误仍然是一项重大挑战。本研究提出了一种新颖且有效的逻辑谬误检测提示制定方法,适用于有监督(微调)和无监督(零样本)设置。我们的方法通过融入隐含上下文信息(反论点、解释和目标)来丰富输入文本,这些信息是我们在论点背景下对其有效性进行查询的依据。然后,我们根据置信度分数对这些查询进行排序,为分类提供参考。我们使用GPT和LLaMA系列模型,在来自5个领域的多个数据集上对我们的方法进行评估,这些数据集涵盖29种不同的谬误类型。原创 2025-04-17 08:30:00 · 134 阅读 · 0 评论 -
JudgeLRM: Large Reasoning Models as a Judge
大型语言模型(LLM)作为评估者的兴起为人工标注提供了可扩展的替代方案,但现有针对评估者的监督微调(SFT)方法在需要复杂推理的领域往往表现不足。在这项工作中,我们研究了LLM评估者是否真正受益于增强的推理能力。通过对评估任务中推理需求的详细分析,我们发现SFT的性能提升与高推理需求样本的比例呈负相关,突显了SFT在此类场景中的局限性。为解决这一问题,我们引入JudgeLRM,这是一系列通过强化学习(RL)训练的面向判断的LLM,采用基于评估者的结果驱动奖励机制。原创 2025-04-14 09:30:00 · 176 阅读 · 0 评论 -
Video-R1: Reinforcing Video Reasoning in MLLMs
本文针对多模态大语言模型(MLLMs)在视频推理任务中的不足,提出了Video-R1模型,旨在通过强化学习(RL)范式系统性提升模型的视频推理能力。现有方法在视频推理中面临两个核心挑战:缺乏时间建模能力和高质量视频推理数据稀缺。首次系统性探索R1范式在视频推理中的应用,提出Video-R1模型。T-GRPO算法通过对比学习显式建模时间信息,解决传统RL缺乏时间归纳偏置的问题。构建混合数据集,结合图像和视频数据,缓解视频推理数据稀缺性,增强模型泛化能力。实验验证。原创 2025-04-13 08:30:00 · 193 阅读 · 0 评论 -
Fin-R1: A Large Language Model for Financial Reasoning through Reinforcement Learning
模型设计Fin-R1是一个专为金融领域设计的轻量级大语言模型(70亿参数),通过监督微调(SFT)和强化学习(RL)两阶段训练框架,解决金融推理中的核心问题。数据集构建提出了高质量金融推理数据集,包含60,091条多维度金融知识样本,涵盖中文和英文双语内容,通过数据蒸馏和过滤确保准确性。训练方法监督微调(SFT):基于Qwen2.5-7B-Instruct模型,优化金融推理能力。强化学习(RL)原创 2025-04-03 08:30:00 · 192 阅读 · 0 评论 -
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models
大型语言模型(LLMs)在复杂任务中展现出卓越能力。近期,OpenAI o1和DeepSeek-R1等大型推理模型(LRMs)通过监督微调(SFT)和强化学习(RL)技术优化思维链(CoT)推理,进一步提升了数学、编程等System-2推理领域的性能。然而,较长的CoT推理序列虽能提高准确性,但冗余的输出会导致显著的计算开销,即“过度思考现象”。高效推理旨在优化推理长度同时保留能力,可降低计算成本并提升实时应用响应速度。尽管潜力巨大,高效推理仍处于研究初期。原创 2025-03-31 10:48:31 · 262 阅读 · 0 评论 -
LLM+AL: Bridging Large Language Models and Action Languages for Complex Reasoning About Actions
大语言模型(LLMs)在各种智能任务中取得了显著进展,但在需要系统搜索的复杂行动推理任务上仍存在困难。为解决这一局限,我们提出一种方法,将大语言模型的自然语言理解能力与行动语言的符号推理优势相结合。我们的方法称为LLM+AL,它利用大语言模型在语义解析和常识知识生成方面的优势,以及行动语言基于编码知识进行自动推理的能力。我们使用复杂行动推理基准测试,将LLM+AL与最先进的大语言模型(包括CHATGPT-4、CLAUDE 3 OPUS、GEMINI ULTRA 1.0和O1-PREVIEW)进行比较。原创 2025-03-26 09:30:00 · 136 阅读 · 0 评论 -
BoostStep: Boosting Mathematical Capability of Large Language Models via Improved Single-step
大语言模型(LLMs)在通过多步推理解决复杂数学问题方面展现出了令人瞩目的能力,并且可以通过精心设计的上下文学习(ICL)示例进一步提升。然而,这种潜力常常受到ICL中的两个主要挑战的限制:粒度不匹配和无关信息。我们观察到,虽然大语言模型擅长分解数学问题,但它们在细粒度步骤的推理中常常出现错误。此外,在问题级别检索到的ICL示例可能会省略关键步骤,甚至用无关的细节误导模型。原创 2025-03-25 08:30:00 · 43 阅读 · 0 评论 -
Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?
最近,o1-like模型受到了广泛关注,这些模型通过生成长思维链(CoT)推理步骤来提高现有大语言模型(LLMs)的推理能力。在本文中,为了理解这些长CoT的质量,并衡量现有LLMs对这些长CoT的批判能力,我们引入了DeltaBench。DeltaBench包含了不同o1-like模型(如QwQ、DeepSeek-R1)针对不同推理任务(如数学、代码、通用推理)生成的长CoT,用于衡量在长CoT推理中检测错误的能力。原创 2025-03-24 09:30:00 · 138 阅读 · 0 评论 -
START: Self-taught Reasoner with Tools
大型推理模型(LRM)如OpenAI-o1和DeepSeek-R1通过使用长思维链(CoT)在复杂推理任务中表现出显著能力。然而,这些模型由于仅依赖内部推理过程,往往会出现幻觉和效率低下的问题。在本文中,我们介绍了START(带工具的自学习推理器),这是一种新型的工具集成长CoT推理LLM,通过利用外部工具显著增强了推理能力。通过代码执行,START能够执行复杂计算、自我检查、探索多种方法和自我调试,从而解决LRM的局限性。原创 2025-03-13 08:30:00 · 156 阅读 · 0 评论 -
Self-rewarding correction for mathematical reasoning
我们研究了具有自奖励推理能力的大语言模型(LLMs),这类模型能够在推理时,在没有外部反馈的情况下,逐步生成推理过程,并评估输出的正确性。这种一体化的方法,使单个模型能够独立地引导其推理过程,为模型部署带来了计算优势。我们特别关注自我修正这一具有代表性的任务,在这个任务中,模型能够自主检测其回答中的错误、修改输出,并决定何时终止迭代优化循环。为了实现这一目标,我们提出了一种两阶段算法框架,仅使用模型自身生成的数据,构建具有自奖励推理能力的模型。原创 2025-03-12 11:00:00 · 152 阅读 · 0 评论 -
SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution
最近DeepSeek-R1的发布展示了强化学习(RL)在提升大语言模型(LLMs)通用推理能力方面的巨大潜力。虽然DeepSeek-R1及后续工作主要聚焦于将RL应用于竞赛编程和数学问题,但本文介绍了SWE-RL,这是第一种将基于RL的LLM推理扩展到实际软件工程中的方法。原创 2025-03-12 09:30:00 · 188 阅读 · 0 评论 -
Self-Training Elicits Concise Reasoning in Large Language Models
思维链(CoT)推理使大语言模型(LLMs)能够通过中间token进行额外计算,以解决复杂任务。然而,我们认为典型的推理过程包含许多冗余token,导致了额外的推理成本。通过研究当前大语言模型的输出分布,我们发现它们相较于默认行为,具备更简洁推理的潜在能力。为激发这种能力,我们提出了简单的微调方法,在特定任务设置中,利用通过N选1采样(best-of-N sampling)和少样本条件设定(few-shot conditioning)生成的自生成简洁推理路径。原创 2025-03-08 09:30:00 · 172 阅读 · 0 评论 -
Meta-Reasoner: Dynamic Guidance for Optimized Inference-time Reasoning in Large Language Models
大语言模型(LLMs)越来越依赖冗长的推理链来解决复杂任务。然而,这种试错方法往往会导致高昂的计算成本和错误传播,早期的错误可能会使后续步骤偏离正轨。为解决这些问题,我们引入了Meta-Reasoner框架,它通过让大语言模型 “思考如何思考” 来动态优化推理时的推理过程。受人类元认知和双过程理论的启发,Meta-Reasoner就像一个战略顾问,将高级指导与逐步生成过程分离。原创 2025-03-05 09:22:03 · 399 阅读 · 0 评论 -
Emergent Symbolic Mechanisms Support Abstract Reasoning in Large Language Models
最近的许多研究都发现了大语言模型中出现推理能力的证据,但对于这些能力的稳健性,以及它们在多大程度上依赖于结构化推理机制,仍存在争议。为了阐明这些问题,我们对支持开源语言模型 Llama3-70B 中抽象规则归纳的内部机制进行了全面研究。我们识别出一种新兴的符号架构,它通过一系列三个计算步骤来实现抽象推理。在早期层中,符号抽象头基于输入token之间的关系将其转换为抽象变量。在中间层中,符号归纳头对这些抽象变量进行序列归纳。最后,在后期层中,检索头通过检索与预测的抽象变量相关联的值来预测下一个token。原创 2025-03-05 09:00:00 · 109 阅读 · 0 评论 -
Competitive Programming with Large Reasoning Models
我们发现,应用于大型语言模型(LLM)的强化学习显著提高了复杂编码和推理任务的性能。此外,我们将两种通用推理模型——OpenAI o1和o3的早期检查点——与特定领域的系统o1-ioi进行了比较,o1-ioi使用了为参加2024年国际信息学奥林匹克竞赛(IOI)而设计的人工推理策略。我们在IOI 2024上与o1-IOI进行了现场比赛,并使用手工制作的测试时间策略,排名第49位。在宽松的比赛限制下,奥获得了一枚金牌。原创 2025-02-24 09:00:00 · 251 阅读 · 0 评论 -
Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach
我们研究了一种新的语言模型架构,该架构能够通过潜在空间中的隐式推理来缩放测试时间计算。我们的模型通过迭代一个循环块来工作,从而在测试时展开到任意深度。这与通过产生更多token来扩展计算的主流推理模型形成鲜明对比。与基于思维链的方法不同,我们的方法不需要任何专门的训练数据,可以在小的上下文窗口中工作,并且可以捕获不易用语言表示的推理类型。我们将概念验证模型扩展到35亿个参数和8000亿个token。我们证明,由此产生的模型可以提高其在推理基准上的性能,有时甚至可以显著提高,计算负载相当于500亿个参数。原创 2025-02-23 10:00:00 · 100 阅读 · 0 评论 -
Efficient Reasoning with Hidden Thinking
思维链(CoT)推理已成为提高多模态大型语言模型(MLLM)复杂问题解决能力的强大框架。然而,文本推理的冗长性质导致了显著的效率低下。在这项工作中,我们提出了Heima(作为隐藏的llama),这是一种高效的推理框架,利用隐藏潜在空间的推理CoT。我们设计了Heima编码器,使用单个思维token将每个中间CoT压缩成一个紧凑的、更高级的隐藏表示,有效地减少了冗长,减少了推理过程中所需的token总数。原创 2025-02-18 10:00:00 · 146 阅读 · 0 评论 -
LIMO: Less is More for Reasoning
我们提出了一个基本发现,挑战了我们对大型语言模型中复杂推理如何出现的理解。虽然传统观点认为,复杂的推理任务需要大量的训练数据(通常超过10万个例子),但我们证明了一个惊人的现象:复杂的数学推理能力可以用少得惊人的例子有效地激发出来。这一发现不仅挑战了海量数据需求的假设,也挑战了监督微调主要导致记忆而非泛化的普遍信念。通过综合实验,我们提出的模型LIMO在数学推理方面表现出了前所未有的性能和效率。原创 2025-02-22 09:00:00 · 63 阅读 · 0 评论 -
Large Language Model-Enhanced Symbolic Reasoning for Knowledge Base Completion
将大型语言模型(LLM)与基于规则的推理相结合,为提高知识库补全(KBC)的灵活性和可靠性提供了一种强大的解决方案。传统的基于规则的KBC方法提供了可验证的推理,但缺乏灵活性,而LLM提供了很强的语义理解,但存在幻觉。为了将LLM的理解能力与基于规则的方法的逻辑性和严谨性相结合,我们提出了一种由子图提取器、LLM提议器和规则推理器组成的新框架。子图提取器首先从知识库中采样子图。然后,LLM使用这些子图来提出有助于推断缺失事实的多样化和有意义的规则。原创 2025-02-21 09:00:00 · 45 阅读 · 0 评论 -
rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking
我们提出rStar Math来证明小型语言模型(SLM)可以与OpenAI o1的数学推理能力相媲美甚至超越,而无需从高级模型中提炼出来。rStar Math通过蒙特卡洛树搜索(MCTS)进行“深度思考”来实现这一目标,其中数学策略SLM在基于SLM的过程奖励模型的指导下执行测试时间搜索。rStar Math引入了三项创新来应对训练两个SLM的挑战:(1)一种新的代码增强CoT数据合成方法,该方法执行广泛的MCTS部署,以生成用于训练策略SLM的逐步验证推理轨迹;原创 2025-02-14 10:00:00 · 201 阅读 · 0 评论 -
Improving Multi-Step Reasoning Abilities of Large Language Models with Direct Advantage
本文是LLM系列文章,针对《Improving Multi-Step Reasoning Abilities of Large Language Models with Direct Advantage Policy Optimization》的翻译。强化学习(RL)在增强大型语言模型(LLM)推理方面的作用越来越重要。尽管强化学习在许多场景中取得了成功,但在改进LLM的推理方面仍然存在许多挑战。一个挑战是稀疏的奖励,这使得RL难以进行优化,并且需要大量的数据样本。另一个挑战源于RL固有的不稳定性,特别原创 2025-02-02 10:00:00 · 192 阅读 · 0 评论 -
Toward Adaptive Reasoning in Large Language Models with Thought Rollback
大型语言模型(LLM)已被常规用于使用逐步推理来解决各种任务。然而,中间推理步骤或思想的结构是刚性和单向的,如链、树或无环有向图。因此,当LLM经常给出错误的反应,即“幻觉”时,由此产生的僵化和只向前的推理可能无法解决具有挑战性的任务,并失败。本文提出了一种新的推理框架,称为思维回滚(TR),允许LLM自适应地构建思维结构,同时保持对“幻觉”下问题解决的有效推理。TR的核心机制是回滚思想,它允许LLM对思想进行错误分析,从而回滚到任何以前错误的思想进行修改。原创 2025-01-30 10:00:00 · 214 阅读 · 0 评论 -
Can Large Language Models Reason about the Region Connection Calculus?
定性空间推理是知识表示和推理的一个深入研究的领域,具有从地理信息系统到机器人和计算机视觉的多种应用。最近,人们对大型语言模型(LLM)的推理能力提出了许多主张。在这里,我们研究了一组代表性的LLM在分体拓扑区域连接演算(RCC-8)上执行经典定性空间推理任务的程度。我们使用最先进的LLM进行了三对实验(成分表的重建、与人类成分偏好的对齐、概念邻域重建);在每一对中,一个实验使用同名关系,另一个实验使用匿名关系(以测试LLM对训练期间获得的关系名称知识的依赖程度)。原创 2025-01-02 09:15:00 · 132 阅读 · 0 评论 -
AtomR: Atomic Operator-Empowered Large Language Models for Heterogeneous Knowledge Reasoning
大型语言模型(LLM)的最新进展导致了各种自然语言处理任务的显著改进,但由于LLM在推理规划和幻觉问题上的无效性,LLM在执行知识密集型复杂问题时仍然具有挑战性。一个典型的解决方案是采用检索增强生成(RAG)结合思维链(CoT)推理,将复杂问题分解为链状子问题,并在每个子问题上应用迭代RAG。然而,先前的工作表现出次优的推理规划,忽视了从异构源进行动态知识检索。在本文中,我们提出了AtomR,这是一种在原子级别进行多源推理的新型异构知识推理框架。原创 2024-12-29 09:15:00 · 158 阅读 · 0 评论 -
Forest-of-Thought: Scaling Test-Time Compute for Enhancing LLM Reasoning
大型语言模型(LLMs)在各种语言任务中表现出了非凡的能力,但解决复杂的推理问题仍然是一个挑战。虽然现有的方法,如思维链(CoT)和思维树(ToT),通过分解问题或构建提示来增强推理,但它们通常只执行一次推理,可能无法重新访问有缺陷的路径,从而影响准确性。为了解决这个问题,我们提出了一种新的推理框架,称为思想森林(FoT),它集成了多个推理树,以利用集体决策来解决复杂的逻辑问题。FoT利用稀疏激活策略来选择最相关的推理路径,提高了效率和准确性。原创 2024-12-23 09:15:00 · 447 阅读 · 0 评论