自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 收藏
  • 关注

原创 AdapterBias

AdapterBias 通过在变换器层的隐藏输出上加一个 token-specific 的偏移(用向量和线性层生成),实现了高效微调。它结合了 BitFit 的轻量思想,又增加了灵活性,参数量比 Bottleneck Adapter 少 40 倍,却能保持竞争力。这是个聪明且实用的设计,尤其适合资源有限或快速适配的场景。如果你想更深入,比如具体实验结果或代码实现,我可以再帮你找找相关资料!你觉得这个解释够清楚吗?有什么想补充的吗?

2025-02-24 22:58:46 863

原创 在Transformer中kvcache的使用

在Q、K、V的计算过程中,我们都是会保存K,V矩阵,而query作为一个向量,在计算的过程中K,V矩阵用来存储以前的信息,而Q做的事情就是与以前的信息交互注意以前的信息。注意:在计算过程中,首token的速度也是非常重要的,因为输入提示后由于没有KV缓存,需要对提示词进行计算KV缓存,导致加载的速度变慢。举例说明 30B大模型。

2025-02-17 11:23:03 829

原创 AdaMix

在 Adapter Fusion 中,每个任务都有自己的一组适配器,之后会有一个融合模块,来组合这些适配器的输出。在 Adapter Fusion 中,每个任务都有自己的一组适配器,之后会有一个融合模块,来组合这些适配器的输出。门控网络通常是一个小的神经网络,它的作用是学习输入特征与专家的关系,决定输入应该送到哪些专家,并分配相应的权重。门控网络通常是一个小的神经网络,它的作用是学习输入特征与专家的关系,决定输入应该送到哪些专家,并分配相应的权重。AdaMix 的主要贡献在于,它。

2025-02-16 23:06:41 948

原创 北京冬季出游计划

北京出游计划

2025-02-04 23:02:16 372

原创 Recondreamer模型

Recondreamer模型

2024-12-24 10:51:48 1173

原创 激活函数-swiGLU

swiGLU是一种改进的激活函数模块,主要用于深度学习中的 Transformer 模型和其他神经网络架构。它在的基础上进行了修改,以提升模型的表现和训练效率。swiGLU是对 GLU 的改进,通过引入 Swish 激活函数来提供更平滑的非线性映射,有助于提升深度学习模型的表现,尤其是在 Transformer 架构中。

2024-12-14 21:23:45 1546

原创 旋转位置编码的理解

高维向量可以分成多个二维组,每组进行旋转。旋转公式xi′xi⋅cos⁡θ−yi⋅sin⁡θyi′xi⋅sin⁡θyi⋅cos⁡θxi′​yi′​​xi​⋅cosθ−yi​⋅sinθxi​⋅sinθyi​⋅cosθ​旋转角度θ\thetaθ由词的位置和向量的维度共同决定。优点:适合高维、灵活、效果好。这样,模型就能在高维空间中更好地理解词的顺序信息。

2024-12-14 18:48:37 1175

原创 VLA模型

主要介绍了目前的VLA大模型

2024-12-09 10:05:15 2725

原创 多模态大语言模型的对比

常见的多模态视觉问答模型

2024-12-04 23:25:29 1679

原创 Goat详解——具身智能大模型

对于训练集中的每个batch B,定义了一个掩码函数mblm(b, l)mbl如果Tokensls_lsl​是文本Token或是Agent的动作,则mbl1m(b,l)=1mbl1。否则mbl0m(b,l)=0mbl0。损失函数计算为:LθB−∑b1∣B∣∑l1Lmbllog⁡pθslb∣s1bsl−1bLθB==−b1∑∣B∣​l1∑L​mbl。

2024-11-17 19:41:56 1234 1

原创 GAN网络详解析

介绍目前常见的GAN网络,以及GAN网络的基本组成

2024-04-17 15:41:21 5848

原创 什么是范数——一文轻松理解

通过例子说明什么是范数,理解清晰,拒绝晦涩难懂的数据符号

2024-04-12 20:42:27 6084

原创 关于Transformer的面试题

Transformer大模型的一些问题。

2024-04-11 23:18:38 1314 1

原创 一文读懂Batch_Normalization和Layer_normalization

文章使用简单的例子直接可通过手动计算理解batch_normalization和layer_normalization的计算方式

2024-04-01 13:48:38 3196 2

原创 局部关系网络

局部关系网络

2024-03-18 14:11:04 1059 1

原创 链表的递归算法-leetcode 21题

使用python语言进行递归算法,主要知识点链表递归算法。

2024-03-14 21:35:33 470 1

原创 DTD(Deep Tyalor Decomposition)深度taylor分解

DTD分解,可解释性工作的基本原理

2024-03-04 14:39:56 1026 1

原创 Linux系统----WSL安装anconda、cuda创建pytorch学习环境

WSL安装anconda、cuda创建pytorch学习环境

2024-02-27 20:49:27 4248

原创 windows系统下在Git Bash中激活PyTorch环境以运行脚本的步骤解析( deepspeed: command not found)

windows系统下激活深度学习环境运行.sh文件

2024-02-26 21:18:25 1402 1

原创 大模型提问技巧总结——10条圣经(下)

大模型提问技巧

2024-02-23 22:04:46 1249

原创 大模型提问技巧总结——10条圣经(上)

大模型提问技巧

2024-02-23 21:28:38 1108

原创 模块导入错误

在很多时候我们在运行程序的过程中调用不同文件夹下的不同模块,在这个时候极容易出现找不到对应模块的情况

2024-02-22 11:29:56 852 1

翻译 微调Llama 2 和Mistral

我们将介绍在现有数据上进行训练以及如何创建自己的数据集。您将学习如何格式化数据用于训练,特别是 ChatML 格式。代码保持简单,避免使用额外的黑盒或训练工具,只使用基本的 PyTorch 和 Hugging Face 软件包。

2024-02-21 16:19:37 460

原创 MiniCPM模型的简单部署

MiniCPM 是面壁与清华大学自然语言处理实验室共同开源的系列端侧语言大模型,主体语言模型 MiniCPM-2B 仅有 24亿(2.4B)的非词嵌入参数量。直接在本地运行,方便我们进一步探究该模型,接下来简单介绍一下该模型的本地部署工作安装错误```解决方案:# 模型所在目录的路径将模型目录添加到 sys.path``

2024-02-20 14:54:06 4700 4

原创 flash_attn安装出现的错误及本地安装package

使用本地安装的方式解决flash_attn安装错误的问题

2024-02-18 18:47:31 4652 1

原创 非平衡损失函数

图片中介绍了Batch-based Monte-Carlo (BMC) 方法,这是一个用于深度学习模型训练的损失函数,特别是在不确定性估计中。BMC方法不需要对训练数据的标签分布有先验知识。在BMC中,假设所有的训练标签是从训练标签分布 ( P_{train}(y) ) 中随机采样的。给定一个训练批次 ( B_y ),其中包含N个标签 ( {y(1), y(2), …L−log⁡Ny;yp。

2024-02-18 13:37:16 769 1

原创 【pytorch中3D-CNN分析】

本文介绍了3D-CNN的参数分析,可加深对三维卷积神经网络的卷积过程的理解,其次代码中的卷积网络,可以作为卷积神经网络参数分析的模板使用,对理解卷积网络均有一定的帮助

2023-10-28 09:53:54 1000 1

原创 【Pytorch在win系统下解决num_workers不等于0】

num_workers,RuntimeError: DataLoader worker (pid(s) 23140) exited unexpectedly

2023-09-02 21:13:50 1615

原创 【华为云深度学习(Windows操作版)】

介绍如何利用华为云计算资源进行深度学习过程中,如何上传自己的数据集

2023-05-15 13:13:27 452 1

原创 创建函数时出现“value“ is not define,变量未定义

报错:“value” is not define。在新建函数时,一直出现函数未定义的情况时(如下图)可见错误已经小时,程序可以正常运行。

2023-02-26 00:01:57 1690

原创 关于3DCNN卷积网络卷积网络结构以及参数变化

计算参数数目的详细步骤(a)、(b)图分别表示单通道与多通道的2D卷积操作,其特点即L(Input_shape)=L(kernel),(c)图为3D卷积操作卷积核的深度

2023-02-13 22:55:59 2545

原创 【快速检测GPU性能】

快速了解电脑的GPU性能,以及散热功能,对硬件能够有快速的了解,帮助进行电脑的选择

2022-08-04 13:40:19 9106

原创 使用cmd在Anaconda中批量安装第三方库

安装第三方库

2022-08-04 13:07:34 2390 1

3D数据可视化程序,针对三维数据立方体

能够对三维数据进行可视化操作,并且是透明的颜色,能够看清楚内部结构,已解决内部报错,一键运行,对应的包请按照文件要求进行安装。相比于其他包,出图速度更快。

2024-01-29

python导入csv文件绘制曲线图

使用python语言,可以对生成的深度学习的loss值等其他迭代结果进行精确的绘制,绘制的数据可以不是整数,对整个训练过程能够有一个清晰的了解,方便对模型的改进工作。本资源另外一个特点就是能够实现多条曲线在同一图中的对比,更直观了解出现的问题。并对图形的标题、x轴、y轴进行一些必要的解释

2023-03-01

误差反向传播以及随机梯度下降

适用于想要了解反向误差函数以及随机梯度下降的内部详细计算过程的深度学习算法的初学者,通过详细的图形以及文字说明,使知识点理解的更加透彻。

2023-02-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除