Zob_z-CSDN博客

原创 Meta-Weight-Net[NIPS‘2019]：关于元学习/域自适应（meta learning/domain adaptation）优化噪声标签与类别不平衡的问题

目录研究背景一、为什么存在类别不平衡现象？二、 Meta-Weight-Net[NIPS'2019]1.引入库2.读入数据总结研究背景论文链接：Meta-Weight-Net: Learning an Explicit Mapping For Sample Weighting.数据不平衡问题在现实世界中非常普遍。对于真实数据，不同类别的数据量一般不会是理想的uniform分布，而往往会是不平衡的；如果按照不同类别数据出现的频率从高到低排序，就会发现数据分布出现一个“长尾巴”，也即我们所称的长尾效应.

2020-12-12 20:59:24 6358

原创 EMO: Earth Mover Distance Optimization for Auto-Regressive Language Modeling

今天介绍一篇名为 EMO 的工作，它基于最优传输思想提出了新的改进损失函数，声称能大幅提高 LLM 的微调效果。

2024-01-16 15:23:24 1239 1

原创 UltraFastBERT与Fast-FeedForward-Network

对于大语言模型，如果能在推理过程中只选择性地使用模型中的一小部分参数，将大幅减少计算量，使语言模型的响应速度得到质的提升。然而参数量的减少是否会降低模型性能呢？对此，来自瑞士联邦理工学院苏黎世分校的研究人员在最新研究中给出了证明。他们设计了一种名为 UltraFastBERT 的 BERT 模型变体，其参数量与原 BERT-BASE 持平，但推理时只使用了0.3%的参数。实验结果表明，在多项下游语言理解任务上的表现与 BERT-BASE 可相比拟。这说明语言模型的参数在推理时存在巨大的冗余。

2023-12-14 10:48:02 324 1

原创 DPO(Direct Preference Optimization):LLM的直接偏好优化

在通过 RL 优化人类衍生偏好时，一直以来的传统做法是使用一个辅助奖励模型来微调目标模型，以通过 RL 机制最大化目标模型所能获得的奖励。直观上，我们使用奖励模型向待优化模型提供反馈，以促使它多生成高奖励输出，少生成低奖励输出。同时，我们使用冻结的参考模型来确保输出偏差不会太大，且继续保持输出的多样性。这通常需要在目标函数设计时，除了奖励最大化目标外再添加一个相对于参考模型的 KL 惩罚项，这样做有助于防止模型学习作弊或钻营奖励模型。

2023-11-01 19:01:24 5598 2

原创 PromptAgent：基于LLM进行策略规划，实现专家级别的提示优化

加州大学的团队提出了一个名为PromptAgent的框架，它能够自动优化Prompt。该框架结合了大模型的自我反思特点与蒙特卡洛树搜索规划算法，通过自动迭代检查Prompt并对其进行改进的方式，寻找通往最优Prompt的路径。

2023-11-01 18:50:18 2395 1

原创 2023Retnet论文解读

简介微软亚洲研究院上线了大模型新架构的论文“Retentive Network: A Successor to Transformer for Large Language Models”，该基础架构采用了新的 Retention 机制来代替 Attention，向 Transformer 发起挑战！相对于 Transformer 架构的优势是同时具备:训练可并行、推理成本低和良好的性能，不可能三角。论文中给出一个很形象的示意图，RetNet 在正中间表示同时具备三个优点，而其他的架构 Linear

2023-08-09 15:35:26 2776 2

原创深度学习防止梯度消失与梯度爆炸的几种方法

深度学习防止梯度消失与梯度爆炸的几种方法一：梯度剪切、正则二：Relu、Leakrelu、Elu等激活函数三：batchnorm四：残差结构五：LSTM六：预训练加微调一：梯度剪切、正则梯度剪切这个方案主要是针对梯度爆炸提出的，其思想是设置一个梯度剪切阈值，然后更新梯度的时候，如果梯度超过这个阈值，那么就将其强制限制在这个范围之内。这可以防止梯度爆炸。pytorch中的实现：gradient clipping.optimizer.zero_grad() loss, hidden =

2020-12-06 20:08:13 8610 2

Zob_z的博客