flow_code-CSDN博客

原创 AdapterBias

AdapterBias 通过在变换器层的隐藏输出上加一个 token-specific 的偏移（用向量和线性层生成），实现了高效微调。它结合了 BitFit 的轻量思想，又增加了灵活性，参数量比 Bottleneck Adapter 少 40 倍，却能保持竞争力。这是个聪明且实用的设计，尤其适合资源有限或快速适配的场景。如果你想更深入，比如具体实验结果或代码实现，我可以再帮你找找相关资料！你觉得这个解释够清楚吗？有什么想补充的吗？

2025-02-24 22:58:46 863

原创在Transformer中kvcache的使用

在Q、K、V的计算过程中，我们都是会保存K,V矩阵，而query作为一个向量，在计算的过程中K,V矩阵用来存储以前的信息，而Q做的事情就是与以前的信息交互注意以前的信息。注意：在计算过程中，首token的速度也是非常重要的，因为输入提示后由于没有KV缓存，需要对提示词进行计算KV缓存，导致加载的速度变慢。举例说明 30B大模型。

2025-02-17 11:23:03 829

原创 AdaMix

在 Adapter Fusion 中，每个任务都有自己的一组适配器，之后会有一个融合模块，来组合这些适配器的输出。在 Adapter Fusion 中，每个任务都有自己的一组适配器，之后会有一个融合模块，来组合这些适配器的输出。门控网络通常是一个小的神经网络，它的作用是学习输入特征与专家的关系，决定输入应该送到哪些专家，并分配相应的权重。门控网络通常是一个小的神经网络，它的作用是学习输入特征与专家的关系，决定输入应该送到哪些专家，并分配相应的权重。AdaMix 的主要贡献在于，它。

2025-02-16 23:06:41 948

原创北京冬季出游计划

北京出游计划

2025-02-04 23:02:16 372

原创 Recondreamer模型

Recondreamer模型

2024-12-24 10:51:48 1173

原创激活函数-swiGLU

swiGLU是一种改进的激活函数模块，主要用于深度学习中的 Transformer 模型和其他神经网络架构。它在的基础上进行了修改，以提升模型的表现和训练效率。swiGLU是对 GLU 的改进，通过引入 Swish 激活函数来提供更平滑的非线性映射，有助于提升深度学习模型的表现，尤其是在 Transformer 架构中。

2024-12-14 21:23:45 1546

原创旋转位置编码的理解

高维向量可以分成多个二维组，每组进行旋转。旋转公式xi′xi⋅cos⁡θ−yi⋅sin⁡θyi′xi⋅sin⁡θyi⋅cos⁡θxi′yi′xi⋅cosθ−yi⋅sinθxi⋅sinθyi⋅cosθ旋转角度θ\thetaθ由词的位置和向量的维度共同决定。优点：适合高维、灵活、效果好。这样，模型就能在高维空间中更好地理解词的顺序信息。

2024-12-14 18:48:37 1175

原创 VLA模型

主要介绍了目前的VLA大模型

2024-12-09 10:05:15 2725

原创多模态大语言模型的对比

常见的多模态视觉问答模型

2024-12-04 23:25:29 1679

原创 Goat详解——具身智能大模型

对于训练集中的每个batch B，定义了一个掩码函数mblm(b, l)mbl如果Tokensls_lsl是文本Token或是Agent的动作，则mbl1m(b,l)=1mbl1。否则mbl0m(b,l)=0mbl0。损失函数计算为：LθB−∑b1∣B∣∑l1Lmbllog⁡pθslb∣s1bsl−1bLθB==−b1∑∣B∣l1∑Lmbl。

2024-11-17 19:41:56 1234 1

原创 GAN网络详解析

介绍目前常见的GAN网络，以及GAN网络的基本组成

2024-04-17 15:41:21 5848

原创什么是范数——一文轻松理解

通过例子说明什么是范数，理解清晰，拒绝晦涩难懂的数据符号

2024-04-12 20:42:27 6084

原创关于Transformer的面试题

Transformer大模型的一些问题。

2024-04-11 23:18:38 1314 1

原创一文读懂Batch_Normalization和Layer_normalization

文章使用简单的例子直接可通过手动计算理解batch_normalization和layer_normalization的计算方式

2024-04-01 13:48:38 3196 2

原创局部关系网络

局部关系网络

2024-03-18 14:11:04 1059 1

原创链表的递归算法-leetcode 21题

使用python语言进行递归算法，主要知识点链表递归算法。

2024-03-14 21:35:33 470 1

原创 DTD(Deep Tyalor Decomposition)深度taylor分解

DTD分解，可解释性工作的基本原理

2024-03-04 14:39:56 1026 1

原创 Linux系统----WSL安装anconda、cuda创建pytorch学习环境

WSL安装anconda、cuda创建pytorch学习环境

2024-02-27 20:49:27 4248

原创 windows系统下在Git Bash中激活PyTorch环境以运行脚本的步骤解析（ deepspeed: command not found）

windows系统下激活深度学习环境运行.sh文件

2024-02-26 21:18:25 1402 1

原创大模型提问技巧总结——10条圣经（下）

大模型提问技巧

2024-02-23 22:04:46 1249

原创大模型提问技巧总结——10条圣经（上）

大模型提问技巧

2024-02-23 21:28:38 1108

原创模块导入错误

在很多时候我们在运行程序的过程中调用不同文件夹下的不同模块，在这个时候极容易出现找不到对应模块的情况

2024-02-22 11:29:56 852 1

翻译微调Llama 2 和Mistral

我们将介绍在现有数据上进行训练以及如何创建自己的数据集。您将学习如何格式化数据用于训练，特别是 ChatML 格式。代码保持简单，避免使用额外的黑盒或训练工具，只使用基本的 PyTorch 和 Hugging Face 软件包。

2024-02-21 16:19:37 460

原创 MiniCPM模型的简单部署

MiniCPM 是面壁与清华大学自然语言处理实验室共同开源的系列端侧语言大模型，主体语言模型 MiniCPM-2B 仅有 24亿（2.4B）的非词嵌入参数量。直接在本地运行，方便我们进一步探究该模型，接下来简单介绍一下该模型的本地部署工作安装错误```解决方案：# 模型所在目录的路径将模型目录添加到 sys.path``

2024-02-20 14:54:06 4700 4

原创 flash_attn安装出现的错误及本地安装package

使用本地安装的方式解决flash_attn安装错误的问题

2024-02-18 18:47:31 4652 1

原创非平衡损失函数

图片中介绍了Batch-based Monte-Carlo (BMC) 方法，这是一个用于深度学习模型训练的损失函数，特别是在不确定性估计中。BMC方法不需要对训练数据的标签分布有先验知识。在BMC中，假设所有的训练标签是从训练标签分布 ( P_{train}(y) ) 中随机采样的。给定一个训练批次 ( B_y )，其中包含N个标签 ( {y(1), y(2), …L−log⁡Ny;yp。

2024-02-18 13:37:16 769 1