- 博客(33)
- 收藏
- 关注
原创 AdapterBias
AdapterBias 通过在变换器层的隐藏输出上加一个 token-specific 的偏移(用向量和线性层生成),实现了高效微调。它结合了 BitFit 的轻量思想,又增加了灵活性,参数量比 Bottleneck Adapter 少 40 倍,却能保持竞争力。这是个聪明且实用的设计,尤其适合资源有限或快速适配的场景。如果你想更深入,比如具体实验结果或代码实现,我可以再帮你找找相关资料!你觉得这个解释够清楚吗?有什么想补充的吗?
2025-02-24 22:58:46
863
原创 在Transformer中kvcache的使用
在Q、K、V的计算过程中,我们都是会保存K,V矩阵,而query作为一个向量,在计算的过程中K,V矩阵用来存储以前的信息,而Q做的事情就是与以前的信息交互注意以前的信息。注意:在计算过程中,首token的速度也是非常重要的,因为输入提示后由于没有KV缓存,需要对提示词进行计算KV缓存,导致加载的速度变慢。举例说明 30B大模型。
2025-02-17 11:23:03
829
原创 AdaMix
在 Adapter Fusion 中,每个任务都有自己的一组适配器,之后会有一个融合模块,来组合这些适配器的输出。在 Adapter Fusion 中,每个任务都有自己的一组适配器,之后会有一个融合模块,来组合这些适配器的输出。门控网络通常是一个小的神经网络,它的作用是学习输入特征与专家的关系,决定输入应该送到哪些专家,并分配相应的权重。门控网络通常是一个小的神经网络,它的作用是学习输入特征与专家的关系,决定输入应该送到哪些专家,并分配相应的权重。AdaMix 的主要贡献在于,它。
2025-02-16 23:06:41
948
原创 激活函数-swiGLU
swiGLU是一种改进的激活函数模块,主要用于深度学习中的 Transformer 模型和其他神经网络架构。它在的基础上进行了修改,以提升模型的表现和训练效率。swiGLU是对 GLU 的改进,通过引入 Swish 激活函数来提供更平滑的非线性映射,有助于提升深度学习模型的表现,尤其是在 Transformer 架构中。
2024-12-14 21:23:45
1546
原创 旋转位置编码的理解
高维向量可以分成多个二维组,每组进行旋转。旋转公式xi′xi⋅cosθ−yi⋅sinθyi′xi⋅sinθyi⋅cosθxi′yi′xi⋅cosθ−yi⋅sinθxi⋅sinθyi⋅cosθ旋转角度θ\thetaθ由词的位置和向量的维度共同决定。优点:适合高维、灵活、效果好。这样,模型就能在高维空间中更好地理解词的顺序信息。
2024-12-14 18:48:37
1175
原创 Goat详解——具身智能大模型
对于训练集中的每个batch B,定义了一个掩码函数mblm(b, l)mbl如果Tokensls_lsl是文本Token或是Agent的动作,则mbl1m(b,l)=1mbl1。否则mbl0m(b,l)=0mbl0。损失函数计算为:LθB−∑b1∣B∣∑l1Lmbllogpθslb∣s1bsl−1bLθB==−b1∑∣B∣l1∑Lmbl。
2024-11-17 19:41:56
1234
1
原创 一文读懂Batch_Normalization和Layer_normalization
文章使用简单的例子直接可通过手动计算理解batch_normalization和layer_normalization的计算方式
2024-04-01 13:48:38
3196
2
原创 Linux系统----WSL安装anconda、cuda创建pytorch学习环境
WSL安装anconda、cuda创建pytorch学习环境
2024-02-27 20:49:27
4248
原创 windows系统下在Git Bash中激活PyTorch环境以运行脚本的步骤解析( deepspeed: command not found)
windows系统下激活深度学习环境运行.sh文件
2024-02-26 21:18:25
1402
1
翻译 微调Llama 2 和Mistral
我们将介绍在现有数据上进行训练以及如何创建自己的数据集。您将学习如何格式化数据用于训练,特别是 ChatML 格式。代码保持简单,避免使用额外的黑盒或训练工具,只使用基本的 PyTorch 和 Hugging Face 软件包。
2024-02-21 16:19:37
460
原创 MiniCPM模型的简单部署
MiniCPM 是面壁与清华大学自然语言处理实验室共同开源的系列端侧语言大模型,主体语言模型 MiniCPM-2B 仅有 24亿(2.4B)的非词嵌入参数量。直接在本地运行,方便我们进一步探究该模型,接下来简单介绍一下该模型的本地部署工作安装错误```解决方案:# 模型所在目录的路径将模型目录添加到 sys.path``
2024-02-20 14:54:06
4700
4
原创 非平衡损失函数
图片中介绍了Batch-based Monte-Carlo (BMC) 方法,这是一个用于深度学习模型训练的损失函数,特别是在不确定性估计中。BMC方法不需要对训练数据的标签分布有先验知识。在BMC中,假设所有的训练标签是从训练标签分布 ( P_{train}(y) ) 中随机采样的。给定一个训练批次 ( B_y ),其中包含N个标签 ( {y(1), y(2), …L−logNy;yp。
2024-02-18 13:37:16
769
1
原创 【pytorch中3D-CNN分析】
本文介绍了3D-CNN的参数分析,可加深对三维卷积神经网络的卷积过程的理解,其次代码中的卷积网络,可以作为卷积神经网络参数分析的模板使用,对理解卷积网络均有一定的帮助
2023-10-28 09:53:54
1000
1
原创 【Pytorch在win系统下解决num_workers不等于0】
num_workers,RuntimeError: DataLoader worker (pid(s) 23140) exited unexpectedly
2023-09-02 21:13:50
1615
原创 创建函数时出现“value“ is not define,变量未定义
报错:“value” is not define。在新建函数时,一直出现函数未定义的情况时(如下图)可见错误已经小时,程序可以正常运行。
2023-02-26 00:01:57
1690
原创 关于3DCNN卷积网络卷积网络结构以及参数变化
计算参数数目的详细步骤(a)、(b)图分别表示单通道与多通道的2D卷积操作,其特点即L(Input_shape)=L(kernel),(c)图为3D卷积操作卷积核的深度
2023-02-13 22:55:59
2545
3D数据可视化程序,针对三维数据立方体
2024-01-29
python导入csv文件绘制曲线图
2023-03-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人