自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 收藏
  • 关注

原创 lmms-eval--微调实战笔记

-大模型调用平台,方便新手上手大模型微调lmms-eval的更多用法,任务为mathverse。

2025-04-28 22:27:58 344

原创 《BUILDING MATH AGENTS WITH MULTI-TURN ITERA- TIVE PREFERENCE LEARNING》全文阅读

构建具有多轮迭代偏好学习的数学智能体–《BUILDING MATH AGENTS WITH MULTI-TURN ITERA- TIVE PREFERENCE LEARNING》全文阅读第一作者:Wei Xiong第一单位:University of Illinois Urbana-Champaign最近的研究表明,通过集成外部工具(例如代码解释器)和采用多轮思维链(CoT)推理,可以增强大型语言模型(LLMs)的数学问题解决能力。虽然现有方法侧重于合成数据生成和监督微调(SFT),但本文研究了互补的直

2025-04-27 15:04:25 398

原创 《A new look at the statistical model identification》全文阅读

简要回顾了时间序列分析中统计假设检验的发展历史,并指出假设检验过程不足以定义为统计模型识别的过程。回顾了经典的极大似然估计过程,并引入了一种新的估计,即最小信息理论准则(AIC)估计(MAICE),其设计目的在于统计识别。当存在几种竞争模型时,MAICE 由提供最小 AIC 的模型和参数的极大似然估计值定义,AIC 定义为 AIC = (—2)log (极大似然) + 2(模型中独立调整的参数数量)。MAICE 提供了一种用于统计模型识别的多功能程序,不受传统假设检验程序应用中固有的歧义影响。

2025-04-23 10:32:02 311

原创 《G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model》--全文翻译

大型语言模型(LLMs)在人类水平的推理和生成能力方面展现出非凡的熟练度,这鼓励了对其在数学问题解决中应用的广泛研究。然而,目前的工作主要集中在基于文本的数学问题上,而对涉及几何信息的问题的研究有限。为了弥合这一差距,我们旨在通过理解图像输入使LLMs能够解决几何问题。我们首先分析了当前多模态大型语言模型(MLLMs)在该领域的局限性:它们难以准确理解基本的几何元素及其关系。

2025-04-23 10:09:28 927

原创 《GNS: Solving Plane Geometry Problems by Neural-Symbolic Reasoning with Multi-Modal LLMs》 全文阅读

随着大型语言模型(LLMs)卓越的能力,数学文字问题(MWP)的解决取得了巨大进展,在多个基准数据集上取得了更高的性能。然而,解决平面几何问题(PGPs)更具挑战性,因为需要理解、推理和计算两种模态数据,包括几何图表和文本问题,而多模态大型语言模型(MLLMs)在这方面的研究尚不广泛。以往的工作简单地将平面几何问题视为多模态问答任务,忽略了从问题中显式解析几何元素的重要性。为了解决这一局限性,我们提出了利用多模态大型语言模型进行神经符号推理解决平面几何问题(GNS)。

2025-04-23 10:00:53 911

原创 《Learning Theorem Rationale for Improving the Mathematical Reasoning Capability of Large Language》

大型语言模型(LLMs)在数学推理方面取得了显著进展,尤其是在初等数学领域。然而,它们在解决高中或大学级别的复杂问题时仍然表现不佳,这需要更高级的掌握相关数学定理的能力。对我们人类来说,根据提供的问题选择合适的定理是影响最终解决方案质量的关键因素,但这在之前的LLM推理研究领域中被忽视了。在本文中,我们提出了一种新颖的方法来增强LLM对特定问题应用数学定理的能力,我们称之为定理原理(TR)。为此,我们特意建立了一个包含问题-定理-解三元组的新数据集,用于传递TR的原理。

2025-04-23 09:51:58 937

原创 《Math-PUMA: Progressive Upward Multimodal Alignment to Enhance Mathematical Reasoning》全文翻译

多模态大型语言模型(MLLMs)在解决基于文本的数学问题方面表现出色,但它们在处理数学图表方面却遇到了困难,因为它们主要是在自然场景图像上训练的。对于人类来说,视觉辅助工具通常能增强问题解决能力,但多模态大型语言模型在信息从文本模态转向视觉模态时表现反而更差。这种下降主要是由于它们在图像和文本对齐方面的不足。为了解决上述挑战,我们提出了Math-PUMA,一种专注于渐进式向上多模态对齐的方法。该方法旨在通过三阶段训练过程提高多模态大型语言模型的数学推理能力,其中第二阶段是关键的对齐阶段。

2025-04-23 09:28:32 994

原创 《MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?》全文翻译

多模态大型语言模型(MLLMs)因其在视觉环境中的卓越表现而获得了前所未有的关注。我们调查了当前的基准测试,发现它们在文本问题中加入了过多的视觉内容,这可能会帮助多模态大型语言模型在不真正解释输入图表的情况下得出答案。为此,我们推出了MATHVERSE,这是一个全方位的视觉数学基准测试,旨在对多模态大型语言模型进行公平和深入的评估。我们精心收集了2612个高质量的多学科数学问题,其中包含图表,这些问题来自公开可用的资源。

2025-04-23 09:19:03 659

原创 《What Are Step-Level Reward Models Rewarding?》全文翻译

图2展示了数学推理过程,每步拆分为思考和数学表达式两部分。MDPSAPRMDPSAPR其中:状态空间SSS由状态siTkEkk0isi​Tk​Ek​k0i​组成,代表截至步骤iii的思考序列TkT_kTk​与数学表达式序列EkE_kEk​。动作空间AAA由动作aiTi1ai​Ti1​组成,表示LLM生成的下一步思考的自然语言描述。状态转移函数Psi1∣siai。

2025-04-16 21:53:19 823

原创 《Not All Tokens Are What You Need for Pretraining》全文翻译

先前的语言模型预训练方法通常对所有训练词元均匀地应用下一词预测损失。对此常规做法提出挑战,我们认为“语料库中的并非所有词元对于语言模型训练同等重要”。我们的初步分析考察了语言模型的词元级训练动态,揭示了不同词元的损失表现存在显著差异。基于这些洞见,我们提出了一种新的语言模型RHO-1。不同于传统语言模型对语料中的每个下一词进行学习,RHO-1采用选择性语言建模(Selective Language Modeling,SLM),仅在与目标分布匹配的有用词元上进行训练。

2025-04-16 21:20:32 888

原创 《Multimodal Driver Condition Monitoring System Operating in the Far-Infrared Spectrum》全文翻译

本文提出了一种基于远红外图像多模态分析的疲劳监控新系统。该系统利用长波红外光谱,无论在白天还是夜晚均能有效工作,无需额外光源。图 1 展示了所提出系统的整体框图。整个处理流程从图像采集开始,随后依次经过各个专用模块,每个模块利用其前级提取的数据。系统主要分为三个部分:面部及面部特征检测器、头部姿态估计器以及打哈欠检测器。接着是用于整体驾驶员行为分析的融合模块。下面各节将详细讨论各算法、其修改方法及性能表现。图 1. 所提出驾驶员监控系统的框图。

2025-04-16 20:59:48 891

原创 《MAmmoTH2: Scaling Instructions from the Web》全文翻译

指令调优提升了大语言模型(LLM)的推理能力,其中数据质量和规模化是关键因素。大多数指令调优数据来源于人工众包或GPT-4蒸馏。我们提出一种范式,有效采集1千万条自然存在于预训练网络语料中的指令数据,以提升LLM的推理能力。我们的方法包含三步:(1)召回相关文档,(2)提取指令-响应对,(3)利用开源LLM对提取对进行精炼。在此数据集上微调基础LLM,我们构建了MAmmoTH2模型,显著提升了各类推理基准的性能。值得注意的是,MAmmoTH2-7B(基于Mistral)在MATH数据集的准确率从11%

2025-04-16 20:46:08 772

原创 《Key-Point-Driven Data Synthesis with Its Enhancement on Mathematical Reasoning》全文翻译

大型语言模型在复杂推理任务中展现出了巨大潜力,但由于高质量、注重推理的数据集稀缺,其表现常受到制约。为了解决这一难题,我们提出了关键点驱动数据合成(Key-Point-Driven Data Synthesis,KPDDS),这是一种利用来自真实数据源的关键点和示例实践来合成问答对的新型数据合成框架。KPDDS 确保生成的问题既新颖又经过严格质量控制,并具备大规模扩展能力。基于此,我们构建了专注于数学推理的大规模合成数据集 KPMath,其包含超过 80 万个问答对。

2025-04-16 20:32:25 877

原创 《九章3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models》全文翻译

数学推理是大型语言模型(LLMs)在实际应用中的重要能力。为提升该能力,现有工作通常采用两种方式之一:一是收集大规模数学相关文本进行预训练,二是依赖更强大的大型语言模型(如GPT-4)合成海量数学题目。但这两类方法通常都带来了高昂的训练或合成成本。为降低成本,基于开源可用文本,我们提出一种高效方式:训练小型LLM用于数学题目合成,从而高效生成大量高质量的预训练数据。具体来说,我们利用GPT-4构建一个数据蒸馏集,将其数据合成能力迁移给小型LLM。

2025-04-16 20:19:21 932

原创 《DART-Math: Difficulty-Aware Rejection Tuning for Mathematical Problem-Solving》全文翻译

解决数学问题需要高级的推理能力,对大语言模型来说这一任务具有显著挑战。先前的工作通常使用专有模型生成数据来扩充现有数据集,随后进行指令调优以达到尖端水平的效果。然而,我们对这些数据集的分析表明,它们严重偏向于简单的查询,对于最具挑战性的问题往往无法生成任何正确的回答。

2025-04-16 20:09:04 1015

原创 《Against The Achilles’ Heel: A Survey on Red Teaming for Generative Models》全文阅读

生成模型正迅速流行并被整合到日常应用中,随着各种漏洞暴露,其安全使用引发担忧。鉴于此,红队领域正经历快速增长,凸显出需要覆盖完整流程并解决新兴话题的综合性综述。本文广泛调研了120余篇论文,提出了基于语言模型固有能力的细粒度攻击策略分类体系。此外,本文开发了“搜索者”框架以统一各种自动红队方法。同时,本文涉及多模态攻击与防御、基于大模型(LLM)代理的风险、对无害查询的过度防御以及无害性与有用性之间的平衡等新领域。警告:本文包含可能令人反感、有害或带偏见的示例。

2025-04-16 20:00:44 559

原创 《Listening to Formulas: Pioneering Models and Datasets》全文阅读

人工智能(AI)对传统教育产生了深远影响。近年来,大型语言模型(LLMs)在自然语言处理、计算机视觉、语音识别和自动驾驶等各个应用中得到日益广泛的使用。LLMs 也已应用于推荐、金融、政府、教育、法律事务以及金融等众多领域。作为强大的辅助工具,LLMs 融合了深度学习、预训练、微调以及强化学习等各种技术。基于大型语言模型用于智慧教育(LLMEdu)已成为各国的重要战略方向。虽然 LLMs 在提高教学质量、改变教育模式以及改变教师角色方面展现出巨大潜力,但相关技术仍面临若干挑战。

2025-04-16 08:21:19 914

原创 《ADVANCING MATHEMATICAL REASONING IN LAN- GUAGE MODELS》全文阅读

\begin{abstract}数学推理一直是大型语言模型(LLMs)面临的具有挑战性的问题,这也促使学术界和产业界开发了诸如 LLEMMA、DeepSeekMath、Qwen2-Math 等针对数学领域的专门 LLMs。这些模型通常遵循两阶段训练范式:在预训练阶段使用与数学相关的语料进行训练,在后训练阶段则利用问题数据进行监督微调(SFT)。尽管做出了这些努力,但通过继续预训练(CPT)所获得的数学推理能力的提升通常不如通过 SFT 所获得的显著。本研究针对这一现象展开探索,重点考察在预训练阶段采用问题求

2025-04-15 23:53:37 720

原创 《Artificial Intelligence-Enabled Intelligent Assistant for Personalized and Adaptive Learning》全文阅读

\begin{abstract}本文提出了一种新颖的框架——人工智能驱动的智能助手 (AIIA),用于高等教育中个性化与自适应的学习。AIIA 系统利用先进的人工智能与自然语言处理 (NLP) 技术创建一个交互式且引人入胜的学习平台。该平台旨在通过为学习者提供便捷的信息访问、促进知识评估以及根据个体需求与学习风格量身定制个性化学习支持,从而降低学习者的认知负荷。AIIA 的能力包括理解和响应学生查询、生成测验和抽认卡、以及提供量身定制的学习路径。本研究成果有望对高等教育中基于 AI 的虚拟教学助理 (VTA

2025-04-15 23:52:00 599

原创 《Ethical Implications of ChatGPT in Higher Education: A Scoping Review》全文翻译

本范围界定性综述探讨了在高等教育中使用ChatGPT所引发的伦理挑战。通过回顾近期发表的英文、中文和日文的学术文章,我们旨在提供一次深入的文献回顾并识别文献中的空白。基于Arksey & O’Malley(2005)的范围界定性综述框架,我们定义了检索词并从三种目标语言的四个数据库中识别了相关出版物。研究结果显示,大部分论文为讨论性文章,但也有一些初步的实证研究。这些工作中讨论的伦理问题主要涉及学术诚信、考核问题和数据保护。

2025-04-15 23:46:09 870

原创 《Proactive and reactive engagement of artificial intelligence methods for education: a review》全文翻译

人工智能”(AI)这一术语由 John McCarthy 在 1956 年提出(Haenlein and Kaplan, 2019)。自 McCulloch 与 Pitts 首次公认地概念化人工神经元的工作以来,AI 经过了多个休眠时期和研究焦点的转变。从通过暴露在略带噪声的观测数据中学习以执行某些预定义任务的算法——即机器学习(ML),到学习将高维观测映射到低维空间表示的更复杂方法,即深度学习(DLDLDL)——目前提供了大量计算技术。

2025-04-15 23:38:39 799

原创 《 Reinforcement Learning for Education: Opportunities and Challenges》全文阅读

本节中,我们总结了强化学习在教育领域中的主要研究方向。\[0pt]RL 方法用于跨任务个性化课程的设计。RL 在 ED 中最直接、研究最为充分的应用是为学生提供个性化课程的教学策略训练。在这一问题设置中,一般训练一个 RL 智能体来在智能辅导系统中诱导教学策略,而人类学生则作为 RL 术语中的“环境”存在 [2]。对于给定学生,该教学策略将学生的响应历史映射到下一任务,以最大化长期的学习收益。读者可参考 [16],该文对该主题进行了极好的综述;同时也请参见邀请演讲 [T7]。

2025-04-15 23:33:23 717

原创 《The Promise and Peril of ChatGPT in Higher Education: Opportunities, Challenges, and Design Implic》

利用人工智能(AI)和自然语言处理(NLP)技术构建的大型语言模型(LLMs)的进步正在迅速改变我们的日常生活。由于它们生成的语言和对话在流畅性和自然性方面与人类十分相似,人们在处理各种任务时都会使用并依赖于这些大型语言模型,从平凡的任务(例如,撰写电子邮件 [10])到创造性的任务(例如,撰写小说 [32, 49])。此外,基于 LLM 的聊天机器人还被用于一些专门任务,例如用来给社会孤立者打电话并进行关怀 [37],以及作为公共卫生干预措施 [90]。

2025-04-15 21:28:22 543

原创 《Training Language Models to Self-Correct via Reinforcement Learning》全文翻译

1{ }^{1}1 Google DeepMind, “贡献相同, +{ }^{+}+随机排列(通过掷硬币决定), †{ }^{\dagger}† 联合指导.}自我修正是大型语言模型(LLMs)一个非常理想的能力,然而在现代LLMs中,这一能力一直被发现在实际使用中效果甚微。当前训练自我修正的方法通常依赖于多个模型、更高级的模型或额外的监督形式。为了解决这些缺点,我们提出了一种多轮在线强化学习(RL)方法,即 SCoRe,该方法显著提高了LLM仅利用自生成的数据实现自我修正的能力。为了构建 SCoRe,我们

2025-04-15 21:23:10 789

原创 《A New Look at the Statistical Model Identification》全文翻译

转载自 IEEE Transactions on Automatic Control,第 19 卷,第 716-723 页,1974。本文简要回顾了时间序列分析中统计假设检验的发展历史,并指出将假设检验过程简单等同于统计模型识别的方法是不充分的。文中回顾了经典的最大似然估计过程,并引入了一种为统计识别目的而设计的新估计——最小信息理论准则(AIC)估计(MAICE)。当存在多个竞争模型时,MAICE 被定义为:选择使下式最小的模型及其参数的最大似然估计值AIC⁡=(−2)log⁡(最大似然)+2 (模型中

2025-04-15 15:07:29 858

原创 Autodl复现DQN《Human-level control through deep reinforcement learning》

【代码】Autodl复现DQN《Human-level control through deep reinforcement learning》

2025-04-01 22:25:22 213

原创 《Learning Transferable Visual Models From Natural Language Supervision》(CLIP)文章翻译-细读理解

VMamba全文翻译和解读,一边研究一边实时更新,欢迎讨论和批评

2025-03-05 12:39:03 446

原创 《Visual Instruction Tuning》(LLava)文章翻译-细读理解

LLava全文阅读,实时更新

2025-03-04 22:22:04 992

原创 autodl-LLaVA复现

【代码】autodl-LLaVA复现。

2025-02-25 13:59:38 132

原创 CLIP在Autoldl上复现

【代码】CLIP在Autoldl上复现。

2025-02-25 09:49:00 155

原创 《VMamba: Visual State Space Model》全文详细翻译和解读

VMamba全文翻译和解读,一边研究一边实时更新,欢迎讨论和批评

2025-01-15 19:37:57 1114

原创 《Demystify Mamba in Vision: A Linear AttentionPerspective》(MLLA)文章翻译-细读理解

一边看文章一边写,最后会附带解读,实时更新

2025-01-14 11:22:52 1922

原创 Autodl-VMamba-复现

平平无奇码农初学者,实时更新,欢迎批评指教与讨论

2025-01-12 11:44:43 2007

原创 Autodl-MLLA-复现

平平无奇的码农初学者,实时更新,欢迎指正与讨论

2025-01-10 20:14:37 294

原创 Autodl复现Swin-Transformer

平平无奇的在读研究生学习笔记,仅供参考,欢迎讨论,实时更新中

2025-01-10 14:54:27 381

原创 【Autoldl-Spatial-Mamba复现】

平平无奇复现论文,实时更新

2025-01-09 10:54:34 2303

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除