自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(64)
  • 收藏
  • 关注

原创 XGBoost: A Scalable Tree Boosting System 中文翻译

在本节中,我们回顾梯度树增强算法。推导遵循了现有文献中梯度增强的相同思路。特别是,二阶方法源自Friedman等人 [12]。我们对正则化目标进行了小的改进,这在实践中被发现是有帮助的。

2025-04-14 22:48:57 731

原创 Deep Forest【论文翻译】

当前的深度学习模型主要建立在神经网络的基础上,即多个参数化的可微分非线性模块层,这些模块可以通过反向传播进行训练。在本文中,我们探讨了基于不可微分模块构建深度模型的可能性。我们推测,深度神经网络成功背后的奥秘在于三个特征,即。我们提出了gcForest方法,该方法生成具有这些特征的深度森林。这是一种决策树集成方法,其超参数远少于深度神经网络,并且其模型复杂性可以以数据依赖的方式自动确定。

2025-04-14 11:57:03 720

原创 LLM Driven Web Profile Extraction for Identical Names

互联网上拥有相同名字的个体数量正在增加,这使得搜索特定个体的任务变得繁琐。用户必须在许多具有相同名字的个人资料中进行筛选,以找到实际感兴趣的个体。个体的在线存在形成了其个人资料。我们需要一种解决方案,通过提取网络上可用的事实信息来帮助用户整合这些个体的个人资料,并将其作为单一结果提供。我们提出了一种新颖的解决方案,通过端到端的流程检索具有相同全名的个体的网络个人资料。

2025-04-02 20:18:54 724

原创 GAIN: Missing Data Imputation using Generative Adversarial Nets 中文翻译

我们提出了一种新颖的缺失数据插补方法,通过适应著名的生成对抗网络(GAN)框架。因而,我们将我们的方法称为生成对抗插补网络(GAIN)。生成器(G)观察到真实数据向量的一些组成部分,基于实际观察到的内容插补缺失的组成部分,并输出一个完整的向量。然后,鉴别器(D)接收一个完整的向量,并尝试判断哪些组成部分是实际观察到的,哪些是插补的。为了确保D迫使G学习所需的分布,我们以提示向量的形式为D提供了一些额外的信息。这个提示向D透露了关于原始样本缺失性的部分信息,D利用这些信息集中注意力于特定组成部分的插补质量。这

2025-04-02 19:01:05 644

原创 Handling Incomplete Heterogeneous Data using VAEs 中文翻译

变分自编码器(VAEs)以及其他生成模型已被证明在捕捉大量复杂高维数据的潜在结构方面高效且准确。然而,现有的VAEs仍无法直接处理异构(混合连续和离散)或不完整(随机缺失数据)的数据,这在现实世界应用中确实很常见。本文提出了一个通用框架,以设计适合拟合不完整异构数据的VAEs。所提出的HI-VAE包括针对实值、正实值、区间、分类、序数和计数数据的似然模型,并允许对缺失数据进行准确估计(并可能进行插补)。此外,HI-VAE在监督任务中表现出竞争性的预测性能,在训练于不完整数据时优于监督模型。数据通常以数据库的

2025-04-01 17:01:57 594

原创 Jellyfish: Instruction-Tuning Local Large Language Models for Data Preprocessing 中文翻译

本文探讨了大型语言模型(LLMs)在数据预处理(DP)中的应用,这是数据挖掘流程中一个关键步骤,旨在将原始数据转化为适合于轻松处理的干净格式。虽然LLMs的使用引发了对制定通用DP解决方案的兴趣,但该领域近期的举措通常依赖于GPT API,这引发了不可避免的数据泄露担忧。与这些方法不同,我们考虑对本地LLMs(7-13B模型)进行指令调优,作为在本地、单一、低成本GPU上运行的通用DP任务求解器,以确保数据安全并允许进一步定制。

2025-04-01 15:04:06 855

原创 Table-GPT: Table Fine-tuned GPT for Diverse Table Tasks 中文翻译

表格任务的实例,记为𝑡,定义为三元组𝑡 = (𝐼𝑛𝑠,𝑇,𝐶),其中𝐼𝑛𝑠是描述表格任务的自然语言指令,𝑇是要执行任务的输入表格,𝐶是执行指令任务后对表格𝑇的期望完成结果。

2025-03-31 20:46:44 1472

原创 UNIDM: A UNIFIED FRAMEWORK FOR DATA MANIPULATION WITH LARGELANGUAGE MODELS 中文翻译

在本节中,我们提出一个统一框架,以正式化我们在数据湖中要解决的数据操作任务。设DD1D2DlDD1​D2​Dl​为一个数据湖。在本文中,我们假设每个元素Di∈DD_i \in DDi​∈D是一个包含多个记录(元组)的关系数据表。我们将表DiD_iDi​的模式及其属性集表示为SiS_iSi​。与关系数据库不同,数据湖DDD中的表未指定连接关系。对于任何记录rrr和属性sss,我们用rsr[s]rs表示rrr在s。

2025-03-31 17:09:35 331

原创 Can Foundation Models Wrangle Your Data? 中文翻译

基础模型(FMs)是基于大规模数据集训练的模型,这些模型在非常大规模的情况下能够在没有任何特定任务微调的情况下泛化到新任务。随着这些模型规模的不断增长,创新也持续推动它们在语言和图像任务上的能力边界。本文旨在理解基础模型中一个尚未充分研究的领域:经典数据任务,如数据清理和集成。作为概念验证,我们将五个数据清理和集成任务视为提示任务,并评估基础模型在这些任务上的表现。我们发现,大型基础模型能够泛化并在数据清理和集成任务上取得最佳性能,即使它们并未针对这些数据任务进行训练。

2025-03-31 16:04:12 391

原创 On LLM-Enhanced Mixed-Type Data Imputation with High-Order Message Passing 中文翻译

在上述表格数据的关键内在特性的指导下,我们提出UnIMP以实现准确的混合类型数据插补。整体架构如图2所示。给定不完整的原始数据集,UnIMP首先利用分块技术和渐进掩码处理数据。然后,构造以单元为导向的超图。UnIMP利用分词器和LLM主干进行特征初始化和传播,将原始数据和查询提示从文本空间投影到嵌入空间。这些获得的特征通过BiHMP模块进行处理,该模块迭代运行节点到超边层和超边到节点层,以聚合局部和全局信息。聚合后的特征随后通过XFusion模块与嵌入提示进行融合。

2025-03-29 15:06:08 1012

原创 Large Language Models for Data Annotation and Synthesis: A Survey 中文翻译

数据标注和合成通常是指用相关信息对原始数据进行标记或生成,这可以用于提高机器学习模型的效能。然而,这一过程劳动密集且成本高昂。先进的大型语言模型(LLMs)的出现,以GPT-4为例,提供了前所未有的机会来自动化复杂的数据标注和合成过程。尽管现有的调查已经广泛涵盖了LLM的架构、训练和一般应用,但我们独特地关注它们在数据标注方面的特定用途。本调查贡献于三个核心方面:基于LLM的标注生成、LLM生成的标注评估以及LLM生成的标注利用。

2025-03-28 14:12:25 653

原创 REWARD DESIGN WITH LANGUAGE MODELS 中文翻译

当定义精确目标困难时,我们可以给出一些期望行为的示例。例如,在像最后通牒游戏这样的资源分配游戏中,用户可能很难指定他们希望获得资源的确切百分比(例如32.4%)。相反,用户可能更容易给出他们满意的分配示例。我们探索LLMs是否能够根据最后通牒游戏中的少量示例生成与用户目标一致的奖励信号。任务描述。最后通牒游戏由两个玩家组成,一个提议者和一个响应者。提议者获得一笔钱,并必须提出一种与响应者分配的方式。响应者可以接受或拒绝所提议的分配。如果响应者接受,玩家将根据分配获得金钱;

2025-03-27 18:07:41 862

原创 ON THE MODELING CAPABILITIES OF LARGE LANGUAGE MODELS FOR SEQUENTIAL DECISION MAKING 中文翻译

大型预训练模型在不同模态的推理和规划任务中表现出日益增强的性能,这为利用它们解决复杂的序列决策问题提供了可能。本文中,我们探究了大型语言模型(LLMs)在多样化交互领域中的强化学习(RL)能力。我们评估了这些模型直接通过生成行动或间接通过首先生成奖励模型以使用RL训练代理来产生决策策略的能力。研究结果表明,即使没有针对特定任务的微调,LLMs在奖励建模方面也表现出色。特别是,通过人工智能(AI)反馈设计奖励被证明是最具普遍适用性的方法,并且可以通过改进信用分配和探索来提升性能。

2025-03-26 19:32:30 903

原创 大模型中的temperature、top_p和top_k

在大语言模型中,(核采样)和是控制生成文本多样性和随机性的关键参数。

2025-03-20 12:27:58 1004

原创 【强化学习系列-PPO/Q-learning】

PPO \Q-learning原理。

2025-03-19 21:09:43 115

原创 nlkt中punkt离线下载

首先因为内部网,无法直接nlkt.download()先查看我们要放punkt的文件夹,选一个就可以了。下载你要的包放进去就可以了。

2025-03-13 13:04:51 217

原创 EE-NET: EXPLOITATION-EXPLORATION NEURAL NETWORKS IN CONTEXTUAL BANDITS 总结版

f1​f2​f1​3​f1​f2​OT​logT)logT​。

2025-03-12 19:05:58 649

原创 EE-NET: EXPLOITATION-EXPLORATION NEURAL NETWORKS IN CONTEXTUAL BANDITS 中文版

在本文中,我们提出了一种新颖的上下文多臂老虎机神经探索策略——EE-Net,这与标准的UCB(上置信界)和TS(汤普森抽样)方法有所不同。上下文多臂老虎机的研究已有数十年,并且有多种应用。为了解决老虎机中的利用-探索权衡,主要有三种技术:ϵ\epsilonϵ-greedy、汤普森抽样(TS)和上置信界(UCB)。在最近的文献中,线性上下文多臂老虎机采用岭回归来估计奖励函数,并将其与TS或UCB策略结合以进行探索。然而,这类研究明确假设奖励是基于臂向量的线性函数,这在现实世界的数据集中可能并不成立。为了解决这

2025-03-12 18:46:05 217

原创 调整 Pandas 显示的最大列数

这样df.head() 的时候就能显示全了。

2025-03-11 15:50:15 247

原创 multi-armed bandit (MAB) 多臂老虎机

在多臂老虎机(multi-armed bandit,MAB)问题(见图 2-1)中,有一个拥有KKK根拉杆的老虎机,拉动每一根拉杆都对应一个关于奖励的概率分布RRR。我们每次拉动其中一根拉杆,就可以从该拉杆对应的奖励概率分布中获得一个奖励rrr。我们在各根拉杆的奖励概率分布未知的情况下,从头开始尝试,目标是在操作TTT次拉杆后获得尽可能高的累积奖励。由于奖励的概率分布是未知的,因此我们需要在“探索拉杆的获奖概率”和“根据经验选择获奖最多的拉杆”中进行权衡。设定:有KKK。

2025-03-10 20:18:00 685

原创 Supervised pretraining can learn in-context reinforcement learning - 内容方法总结

该方法使用。

2025-03-10 17:08:55 550

原创 Supervised pretraining can learn in-context reinforcement learning 中文翻译

大型变压器模型在多样化数据集上的训练显示出惊人的上下文学习能力,在未明确训练的任务上实现了高效的少样本性能。本文研究了变压器在决策问题中的上下文学习能力,即针对乐队和马尔可夫决策过程的强化学习(RL)。为此,我们引入并研究了决策预训练变压器(DPT),这是一种监督预训练方法,变压器在给定查询状态和上下文交互数据集的情况下预测最佳行动,涵盖一系列多样化任务。尽管该过程相对简单,但却使模型具备了多项令人惊讶的能力。我们发现,预训练的变压器可以在上下文中解决一系列RL问题,展现出在线探索和离线保守的特性,尽管未明

2025-03-10 17:05:26 661

原创 Efficient Sequential Decision Making with Large Language Models 方法内容总结

本节提出了将大型语言模型(LLMs)高效融入顺序决策制定的方法。该部分介绍了几种简单的预设采样策略,主要思想是在初期将更多概率分配给基于LLM的策略,随后逐渐转移到上下文强盗算法。pLLMtpLLMt​:采样LLM驱动策略的概率pCBt1−pLLMtpCBt​:=1−pLLMt​:采样标准上下文强盗算法的概率设置了用户指定的概率范围0≤pmin≤pmax≤10≤pmin​≤pmax​≤1。

2025-03-10 13:58:47 953

原创 Efficient Sequential Decision Making with Large Language Models 中文版

本文聚焦于将大型语言模型(LLMs)的成功扩展到顺序决策制定中。现有的努力主要有两种方向:(i)重新训练或微调LLMs以进行决策,或(ii)为预训练的LLMs设计提示。前者面临梯度更新的计算负担,而后者的结果并不理想。本文提出了一种新方法,利用在线模型选择算法高效地将LLMs代理整合到顺序决策中。从统计上看,我们的方法显著优于传统决策算法和基础LLM代理。从计算上看,我们的方法避免了对LLMs进行昂贵的梯度更新,并且在整个决策过程中,仅需调用少量的LLM。我们进行了大量实验以验证所提方法的有效性。

2025-03-10 12:53:27 901

原创 Can Large Language Models Explore In-Context? 中文翻译版

我们发现,考虑的所有 LLM 配置中,除了一个,均表现出探索失败,未能以显著概率收敛于最佳臂。这种情况发生在以下两种情况中:一种是后缀失败,LLM 在少量初始轮次后从未选择最佳臂;另一种(较少出现)是均匀型失败,LLM 以大致均匀的频率选择所有臂,未能淘汰表现不佳的臂。唯一的例外是 Gpt-4 的 BSSC0 配置,即具有按钮场景、暗示性框架、总结历史、增强的 CoT 和温度为 0。我们在图 3 和图 4 中总结了关键发现。

2025-03-09 15:28:27 868

原创 Large Language Model-Enhanced Multi-Armed Bandits 中文版 阅读笔记

大型语言模型(LLMs)已经被应用于解决序列决策任务,例如多臂赌博机(MAB),在这种情况下,LLM被直接指示在每次迭代中选择要拉的臂。然而,这种使用LLM进行直接臂选择的范式在许多MAB任务中被证明是次优的。因此,我们提出了一种替代方法,结合了经典MAB和LLM的优势。具体来说,我们采用经典MAB算法作为高层框架,并利用LLM强大的上下文学习能力来执行奖励预测这一子任务。首先,我们将基于LLM的奖励预测器纳入经典的汤普森采样(TS)算法,并采用递减的温度调度,以确保从探索过渡到利用。

2025-03-09 13:29:52 977

原创 Reinforcement Learning Enhanced LLMs: A Survey 中文翻译 1-5章节

在此,我们使用图1中的训练示例来说明RL的完整过程。在这个例子中,我们的目标是训练一个机器人从方形的左下角移动到右上角。此外,每个网格单元都有一个奖励分数,我们的目标是最大化机器人的总分。代理(Agent):代理是我们训练的实体,以做出正确的决策。在这个例子中,我们的目标是训练机器人做出移动决策,因此机器人就是代理。环境(Environment):环境是代理与之交互的外部系统。在我们的例子中,当训练好的机器人(代理)在网格中移动时,网格就是环境。状态(State):状态表示代理在每个时间点ttt的位置。

2025-03-08 20:41:51 769

原创 【强化学习系列-PPO】

希望给每一步action都有一个合理的contribution,因此希望乘的应该使执行这个动作后的reward时间拖得越长,应该重要性越低

2025-03-06 20:09:32 136

原创 添加virtualenv创建的虚拟环境

【代码】添加virtualenv创建的虚拟环境。

2025-03-06 16:16:04 263

原创 【强化学习系列】-学会环境交互

这张PPT中就是为了缠绵一种行为Behavior Cloning,即也就是,你看到这种画面,然后去拟合一种行为,但是这会导致一种问题,机器可能会完全去模仿,而学到一些不该学的东西,主要是机器不知道什么东西是重要的什么东西是不重要的,只会单纯的去模仿,你不能把如何去建模动作为后面环境的影响去作为一个简单的监督学习,应该把所有的机器动作都当作整体看淡。强化学习的目标就是希望调整actor,使最后得到的Reward最大。假设Env,Actor都是NN,那么其实整体就是一个巨大的nn。

2025-03-06 15:29:57 310

原创 hugging face 下载模型 huggingface_hub

【代码】hugging face 下载模型 huggingface_hub。

2025-03-06 14:09:20 155

原创 读【DeepScaleR: Surpassing O1-Preview with a 1.5B Model by Scaling RL】--强化学习太有魔力了!!!

近日,Deepseek-R1(一款与OpenAI的o1相媲美的模型)的开源发布,标志着在普及推理模型方面取得了重大进展。然而,其精确的训练方法、超参数以及底层系统仍未公开。在本研究中,我们朝着完全开放的训练方案迈出了一大步,旨在为推理模型扩展强化学习(RL)的应用。扩展RL面临的最大挑战之一是高昂的计算成本。例如,我们发现直接复现DeepSeek-R1的实验(⩾32K上下文,约8000步)至少需要70,000个A100 GPU小时——即使对于1.5B参数的模型也是如此。

2025-03-05 21:58:46 966

原创 【强化学习系列】- actor & policy gradient

对于一种状态,只有少数的action才能获得reward,难点就在于如何让机器找到这个action。

2025-03-05 20:10:14 431

原创 wps交叉引用-论文参考文献

wps交叉应用论文参考文献

2025-03-05 12:36:45 199

原创 Conda打包现有环境,conda-pack

21因为内部项目没有网络,所以只能使用Conda打包现有环境,然后迁移环境。报错我们卸载这些冲突的,重新使用conda安装不太行,找攻略发现 conda-pack包进入环境执行命令···conda-pack···

2025-03-04 22:53:00 389

原创 deepseek R1 技术报告-中文版供学习

DeepSeek-R1 在 AIME 2024 上达到了 79.8% 的 Pass@1 分数,稍微超过 OpenAI-o1-1217。在 MATH-500 中,它取得了令人印象深刻的 97.3% 分数,表现与 OpenAI-o1-1217 相当,并显著超越其他模型。在编码相关任务中,DeepSeek-R1 在代码竞赛任务中表现出专家水平,Codeforces 的 Elo 评分达到了 2,029,超越了 96.3% 的人类参与者。

2025-03-04 21:27:34 1193

原创 Conda添加清华源

【代码】Conda添加清华源。

2025-03-04 19:20:26 1222

原创 Unbuntu 命令行装conda

uname - m。

2025-03-04 18:58:58 342

原创 vllm ImportError: libcudart.so.12: cannot open shared object file: No such file or directory

r!r。

2025-03-03 22:19:06 323

原创 vllm 安装踩坑记

​参照上述所说进行安装。

2025-03-03 22:01:38 2963

Can Large Language Models Explore In-Context- 中文翻译版

Can Large Language Models Explore In-Context_ 中文翻译版

2025-03-09

Large Language Model-Enhanced Multi-Armed Bandits 中文版 阅读笔记

Large Language Model-Enhanced Multi-Armed Bandits 中文版 阅读笔记

2025-03-09

Reinforcement Learning Enhanced LLMs_ A Survey 中文翻译 1-5章节

Reinforcement Learning Enhanced LLMs_ A Survey 中文翻译 1-5章节

2025-03-09

DeepScaleR 中文版

DeepScaleR 中文版

2025-03-05

deepseek-r1中文

deepseek-r1中文

2025-03-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除