自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(105)
  • 收藏
  • 关注

原创 Nemotron-Research-Tool-N1 如何提升大语言模型工具使用能力?

如今,大语言模型(LLMs)发展迅猛,给它配备外部工具成为研究热点。但传统方法存在不少问题。这篇论文提出的Nemotron-Research-Tool-N1系列模型带来新突破,用创新方式训练模型,在多个基准测试中表现超厉害,一起来了解下吧!

2025-05-05 23:56:43 268

原创 SAM-Decoding_ 后缀自动机助力大模型推理加速!

大语言模型(LLMs)的推理效率一直是研究热点。本文介绍的SAM-Decoding方法,借助后缀自动机(Suffix Automaton,SAM)实现推测解码,在提升推理速度上成果显著,为大模型推理加速开辟新路径。快来一探究竟吧!

2025-05-04 22:45:55 755

原创 Free Draft Model!Lookahead Decoding加速大语言模型解码新路径

大语言模型(LLMs)在当今AI领域大放异彩,但其自回归解码方式锁死了生成效率。本文将为你解读一种全新的解码算法——Lookahead Decoding,它无需Draft Model就能实现投机采样,加速LLM解码,在多项任务中实现显著提速,为大语言模型的应用带来新突破,快来一探究竟!

2025-05-04 16:09:00 794

原创 无需draft model助力!SuffixDecoding如何加速大语言模型推理?

大语言模型(LLM)在各类应用中广泛使用,但推理速度却成了瓶颈。本文提出的SuffixDecoding方法,不用依赖额外draft模型就能加速推理。它表现如何?又有哪些创新点?快来一探究竟,解锁大模型推理加速的新奥秘!

2025-05-04 00:56:36 454

原创 大模型推理加速——Fastest Speculative Decoding in vLLM with Arctic Inference and Arctic Training

本文介绍了 vLLM 中利用Arctic Inference和Arctic Training实现快速推测解码的研究。该技术大幅提升了大语言模型(LLM)的推理速度,解决了传统推测解码的不足,想知道是如何做到的吗?一起来了解吧~

2025-05-03 18:24:25 660

原创 DeepResearcher:开启大语言模型强化学习在真实网络环境的新时代

大语言模型(LLMs)虽在研究任务上展现潜力,但现有方法存在诸多问题。本文介绍的DeepResearcher框架,通过在真实网络环境中运用强化学习训练LLM代理,取得显著成果。想知道它是如何突破传统局限的吗?快来一探究竟!

2025-05-03 16:01:39 568

原创 强化学习工具调用新突破!OTC如何优化大模型工具调用效率?

在大语言模型(LLMs)蓬勃发展的今天,工具集成推理(TIR)成为提升其能力的关键路径。但现有方法在工具使用效率上问题重重。这篇论文提出的OTC-PO框架,能让模型精准控制工具调用,大幅提升效率,快来一探究竟!

2025-05-02 14:30:01 710

原创 突破推理强化学习困境!在线难度过滤技术大放异彩

在大语言模型(LLMs)推理能力提升备受关注的当下,强化学习(RL)成为关键训练范式。但推理导向强化学习(RORL)存在训练难题。本文提出的在线难度过滤方法为其带来转机,有效提升训练效果,快一起来深入了解这项技术的奥秘吧!

2025-05-02 02:55:37 653

原创 突破传统!TTRL如何开启大模型无监督强化学习新篇章?

在大语言模型(LLMs)蓬勃发展的时代,如何让模型在无明确标签数据下有效学习成为关键难题。本文提出的Test-Time Reinforcement Learning(TTRL)给出了创新解法。它利用多数投票估计奖励,实现LLMs自我进化,在多种任务和模型上显著提升性能,快来一探究竟吧!

2025-05-01 23:14:21 1219

原创 突破zero-RL 困境!LUFFY 如何借离线策略指引提升推理能力?

在大模型推理能力不断取得突破的今天,强化学习成为提升模型能力的关键手段。然而,现有zero-RL方法存在局限。论文提出的LUFFY框架,创新性地融合离线策略推理轨迹,在多个数学基准测试中表现卓越,为训练通用推理模型开辟新路径,快来一探究竟!

2025-05-01 18:41:40 857

原创 小米MiMo-7B大模型:解锁推理潜力的新传奇!

在大语言模型(LLMs)蓬勃发展的时代,推理能力成为衡量模型优劣的关键指标。今天为大家解读的这篇论文,介绍了小米的MiMo-7B模型,它通过独特的预训练和后训练优化,展现出强大的推理实力,快来一探究竟吧!

2025-04-30 22:45:50 852

原创 从拒绝采样到强化学习,大语言模型推理极简新路径!

大语言模型(LLMs)的推理能力是当下研究热点,强化学习在其复杂推理任务微调中广泛应用。这篇论文深入剖析了相关算法,发现简单的拒绝采样基线方法表现惊人,还提出了新算法。快来一探究竟,看看这些发现如何颠覆你对LLMs训练的认知!

2025-04-29 23:49:53 857

原创 AGILE:开启LLM Agent强化学习的创新框架

在大语言模型(LLMs)蓬勃发展的今天,基于LLMs构建的智能体成为研究热点。但如何将各组件整合优化仍是难题。本文提出的AGILE框架给出了创新解法,它不仅统一多组件,还让智能体性能超越GPT-4。想知道它是如何做到的吗?快来一探究竟!

2025-04-29 22:42:26 992

原创 SWEET-RL:开启多轮 LLM 智能协作新纪元,性能提升 6%!

大语言模型(LLM)正逐渐融入我们生活的方方面面,但其在多轮交互任务中的表现却不尽人意。本文提出的SWEET-RL算法和ColBench基准,为解决这些问题带来了新的曙光。想知道它们是如何做到的吗?让我们一同走进这篇论文,探寻其中的奥秘。

2025-04-28 22:51:32 494

原创 RAGEN揭秘:多轮强化学习如何解锁大语言模型智能进化新高度?

在大语言模型(LLMs)蓬勃发展的时代,将其训练为能在复杂环境中自主决策的智能体成为关键挑战。本文提出的RAGEN系统,通过多轮强化学习(RL)探索大语言模型智能体的自我进化,带来全新思路与突破。想知道它是如何做到的吗?快来一探究竟!

2025-04-27 23:13:44 689

原创 大模型奖励建模新突破!Inference-Time Scaling for Generalist Reward Modeling

传统的RM在通用领域面临准确性和灵活性挑战,而DeepSeek-GRM通过动态生成principle和critic,结合并行采样与meta RM引导的投票机制,实现了更高质量的奖励信号生成。论文通过Self-Principled Critique Tuning (SPCT)方法,显著提升了奖励模型(RM)的推理时扩展能力,且推理时扩展性能优于单纯增大模型规模。未来,这一技术有望成为强化学习与语言模型对齐的关键工具。点击阅读,探索通用奖励建模的前沿突破!

2025-04-26 23:21:02 620

原创 xVerify:推理模型评估的革新利器,重塑LLM答案验证格局?

在大语言模型(LLM)蓬勃发展的今天,推理模型不断涌现,但如何精准评估其回答的正确性却成了难题。本文提出的xVerify或许能带来转机。它是专为推理模型评估设计的高效答案验证器,表现卓越。想知道它是如何做到的吗?让我们一探究竟。

2025-04-26 16:40:28 1057

原创 ReTool 登场!LLM借助强化学习解锁工具使用新高度

在大语言模型(LLMs)不断进化的今天,其推理能力备受关注。但传统推理模型在结构化问题求解方面存在短板。本文介绍的ReTool框架,通过强化学习让LLMs能更智能地使用外部计算工具,显著提升数学推理等能力,为大语言模型发展开辟新路径,快来一探究竟!

2025-04-26 12:45:20 985

原创 探秘LLM推理模型:hidden states中藏着的self verification的“钥匙”

推理模型在数学和逻辑推理等任务中表现出色,但常出现过度推理的情况。本文研究发现,推理模型的隐藏状态编码了答案正确性信息,利用这一信息可提升推理效率。想知道具体如何实现吗?快来一起来了解吧!

2025-04-25 22:16:29 747

原创 突破 LLMs 决策困境:LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities

大语言模型(LLMs)在众多领域表现出色,却在决策场景中 “折戟”。本文深入剖析其背后原因,并探索强化学习微调(RLFT)这一 “秘密武器” 能否助力 LLMs 逆袭。想知道研究成果如何吗?快来一探究竟!

2025-04-25 00:06:56 1199

原创 TORL:解锁大模型推理新境界,强化学习与工具融合的创新变革

在大语言模型(LLMs)推理能力不断提升的当下,如何让模型更高效地解决复杂计算和推理任务成为关键。本文介绍的TORL(Tool-Integrated Reinforcement Learning)框架给出了全新方案。它通过强化学习让大模型自主运用计算工具,性能提升显著,为LLMs发展开辟新方向,一起来了解吧!

2025-04-23 23:24:13 1066

原创 革新大模型工具使用能力!ToolRL如何靠奖励设计“逆袭”?

大语言模型(LLMs)发展迅猛,但其在工具使用能力的训练上仍面临挑战。ToolRL通过创新的奖励设计,大幅提升LLMs的工具使用和泛化性能。想知道它是如何做到的吗?一起了解这一前沿研究,探索大模型训练的新突破!

2025-04-22 23:35:40 829

原创 突破传统!SEARCH-R1如何让LLM与搜索引擎协同推理?

大语言模型(LLMs)虽强大,但在复杂推理和获取最新信息方面存在局限。本文介绍的SEARCH-R1框架,通过强化学习让LLMs能自主与搜索引擎交互,在多个问答数据集上性能大幅提升。想知道它是如何做到的吗?快来一探究竟!

2025-04-21 23:20:39 849

原创 AI 速读 SpecReason:让思考又快又准!

在大模型推理的世界里,速度与精度往往难以兼得。但今天要介绍的这篇论文带来了名为SpecReason的创新系统,它打破常规,能让大模型推理既快速又准确,大幅提升性能。想知道它是如何做到的吗?快来一探究竟!

2025-04-21 22:30:42 371

原创 AI速读:解锁LLM下Game Agent的奇妙世界

在 AI 浪潮中,大语言模型(LLMs)正重塑游戏智能体格局。想知道基于 LLMs 的游戏智能体如何运作,在各类游戏中有何惊艳表现,未来又将走向何方?LLM的兴起为游戏智能体的发展注入了强大动力,引发学界和业界广泛关注。这篇论文全面且深入地回顾了基于 LLMs 的游戏智能体相关研究,内容涵盖智能体框架、核心组件、应用实例以及未来发展趋势等多个关键层面。

2025-04-20 15:17:40 813

原创 AI速读 From Hours to Minutes TOKENSWIFT如何实现超长序列生成无损加速?

在大语言模型(LLMs)蓬勃发展的当下,超长序列生成的效率问题却成为了拦路虎。本文将为你解读一篇重磅论文,其中提出的TOKENSWIFT框架,成功将超长序列生成时间从数小时压缩至90分钟,还保证了生成质量,堪称大语言模型领域的一大突破,快来一探究竟!

2025-04-20 12:39:16 1130

原创 AI速读 Seed-Thinking-v1.5:大模型推理的新飞跃

在大语言模型(LLM)蓬勃发展的今天,推理模型的性能提升成为了AI领域的关键议题。今天为大家解读的论文,带来了名为Seed-Thinking-v1.5的推理模型,它在多个任务上表现惊艳,还创新性地解决了不少难题,快一起来深入了解!

2025-04-19 23:07:45 920

原创 tmux 命令速查 导图

最近在使用tmux,整理了一份命令的导图,大家需要自取~

2024-04-17 23:57:10 289

原创 免费图床配置:PicGo + Github + jsDelivr

在了解了图床之后,我开始探索如何搭建自己的图床。最初,我选择了使用 PicGo 结合 Gitee 进行搭建,但后来发现 Gitee 似乎不再支持图床功能,而且存在仓库被封丢失数据的风险。在权衡利弊后,我最终选择了使用 PicGo 结合 GitHub,并结合 JsDeliver 进行加速,来搭建免费的图床。通过这种方案,我成功地搭建了自己的图床,实现了图片资源的高效管理和访问加速。在本文中,我将与大家分享如何配置 PicGo、GitHub 和 JsDeliver,以便在写作博客时能够充分利用免费的图床服务。

2023-08-26 17:47:04 491

原创 Zotero文件同步方案:Zotero + Koofr + GooleDrive/OneDrive

结合Zotero和Koofr,我们可以构建一个基于Zotero + Koofr + Google Drive/OneDrive的文件同步方案,从而更高效地管理和同步Zotero中的文件。

2023-08-26 01:52:46 1672

原创 高效mac常用快捷键整理

本文整理了程序员高效mac的常用快捷键,熟练使用可以大大提升效率。加油!

2023-08-19 18:32:32 1152

原创 量化评价:稳健的业绩评价指标

所谓稳健的评估指标,是指在评估的过程中数据的轻微变化并不会显著的影响一个统计指标。而不稳健的评估指标则相反,在对交易系统进行回测时,参数值的轻微变化会带来不稳健指标的大幅变化。对于不稳健的评估指标,任何对数据有影响的因素都会对测试结果产生过大的影响,这很容易导致数据过拟合。

2023-04-11 00:58:16 757

原创 RUMI策略小试

veighna官方分享RUMI策略的公众号中,这个策略的表现相当不错。自己实现一版,回测结果也挺符合预期,获利交易笔数>亏损交易笔数,盈利交易日>亏损交易日,并且从回测的成交图上看,RUMI策略对趋势的把握也非常好,非常有潜力。

2023-04-01 17:55:07 1651

原创 深入flink系列——集群RPC通信机制

Flink集群中的各个组件(JobMaster、TaskManager、Dispatcher等)之间的RPC通信框架是基于Akka实现的,本文主要学习Flink中的RPC网络通信框架的实现原理,以及集群运行时组件之间相互访问和通信的过程。

2023-03-05 18:41:58 661

原创 深入flink系列——集群启动流程

本文主要梳理一下Flink on Yarn集群启动流程,主要关注各组件之间调用关系的源码梳理,期望对大家阅读Flink源码时把握整体流程有一定的帮助。

2022-11-06 20:07:07 1521

原创 深入Flink系列——watermark使用与源码详解

本节我们主要关注Flink的时间体系,包括Flink的时间语义、watermark机制及watermark的生成与传播原理,主要进行一些flink watermark理论知识的梳理。

2022-07-05 19:41:28 693

原创 第二章 流处理基础

flink流处理基础。

2022-03-24 23:52:49 296

原创 基于TqSDK的vnpy实盘初始化数据获取

通过tqsdk扩展vnpy免费数据源。目前vnpy官方开源已经实现了挺多数据源的,如tushare, tq, 同花顺, rqdata等,但是不同数据源使用成本不同。目前可以使用tushare获取历史数据,但tushare数据是盘后更新的,盘中数据初始化是个问题。幸运的是,tq sdk普通用户最多可以获取每个K线序列的最后8000根K线,无论哪个周期。因此,实盘行情历史数据初始化可以选用天勤数据。

2021-11-22 23:05:59 2964

原创 基于docker部署 opentsdb + grafana数据监控系统

量化系统在运行的过程中有数据监控的需求,期望能够对策略的运行状态、资金指标等信息进行监控,刚好又接触了[docker相关的技术],于是产生了利用docker来部署一套监控系统的想法。所幸,社区已经有很多前人的工作了,搭建起来也比较顺利,有兴趣的朋友可以与我交流~监控系统采用opentsdb+grafana技术组合,后面也会深入的学习一下时序数据库opentsdb。

2021-11-21 21:03:43 4688 1

原创 《Docker技术入门与实战》学习笔记——第一部分 基础入门

近期,工作中docker用的比较多,由于之前并没有怎么使用过docker相关的技术,所以只能边用边查,也不能知其所以然,比较被动。于是,搞了本《Docker技术入门与实战》,学习完第一部分基础入门之后,对docker的原理与基本使用基本就没什么问题了。这里趁机整理一下学习笔记,以便回顾,不过docker这种还是多用会掌握得比较熟练。

2021-11-20 13:56:05 1407

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除