自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 收敛性分析(部分设备,不相同本地训练轮次)

Δt=1∑j∈StDjD∑k∈StDkD∑i=0lkt−1∇Gtk,i.\Delta_t = \frac{1}{\sum_{j \in S_t} \frac{D_j}{D}} \sum_{k \in S_t} \frac{D_k}{D} \sum_{i=0}^{l_k^t - 1} \nabla \mathcal{G}_t^{k,i}.Δt​=∑j∈St​​DDj​​1​k∈St​∑​DDk​​i=0∑lkt​−1​∇Gtk,i​.期望:E[Δt]=1∑j∈StDjD∑k∈StDkD∑i=0lkt−

2025-05-04 14:31:39 283

原创 联邦学习的收敛性分析(全设备参与,不同本地训练轮次)

在联邦学习中,我们的目标是分析全局模型的收敛性,考虑设备异构性(不同用户的本地训练轮次不同)和数据异质性(用户数据分布不均匀)。以下推导从全局模型更新开始,逐步引入假设并推导期望损失的递减关系,最终给出收敛性结论。的偏差,反映数据分布的差异。相关的常数,后续可进一步推导其具体形式。的数据量,表明数据量越大,偏差越小。为常数,反映数据量对梯度幅度的约束。这一步考虑了不同用户的本地训练轮次。由于数据异质性,各用户的本地梯度。假设偏差在用户间近似抵消,即。为适应不同用户的本地训练轮次。轮本地训练时的梯度。

2025-04-30 19:42:35 696

原创 《深度解析:Embedding词嵌入,轻松上手!》

关于词向量与 Embedding:Embedding 是以每个字在给定分布随机初始化的随机向量而组成的可学习参数矩阵,也就是一个全连接 Dense 层(即:密集层或线性层),其以 one-hot(一种将类别数据转换为数值型表示的方法)为输入,稠密向量为输出,即词向量。例如,对于一个包含 vocab_size=10000 个词汇的词汇表,每个词汇都会被表示为一个 10000 维的向量,其中只有一个位置是 1,其余位置都是 0。然后,这个 one-hot 向量会与一个权重矩阵(大小为 10000×embed_d

2025-04-30 19:30:57 782

原创 《SentencePiece & Tokenizers:分词界的两大神器,如何在NLP项目中选择和使用?》

常见的分词库有两种:SentencePiece和Tokenizers

2025-04-30 19:03:46 673

原创 《分词算法大揭秘:BPE、BBPE、WordPiece、ULM常见方法介绍》

分词算法是自然语言处理(NLP)中的一个重要预处理步骤,它将文本分割成更小的单元(如单词、子词或字符)。以下是几种常见的分词算法:Byte Pair Encoding (BPE)、Byte-level BPE (BBPE)、WordPiece 和 Unigram Language Model (ULM)

2025-04-30 18:40:16 1371

原创 快速下载huggingface模型到本地

官方详解地址。

2025-03-12 15:21:17 589

原创 《图文并茂:大模型分词介绍》

例如,对于一个生僻词“unbelievable”,它可以被拆分成“un-”、“believ-”和“-able”这样的子词,这些子词在词表中出现的频率可能更高,从而避免了整个单词因未出现在词表中而无法处理的情况。然而,分词方式的选择和实现会引入一系列问题,这些问题可能导致模型在某些任务上表现不佳,甚至出现看似奇怪的现象。例如,对于单词"happy"和"unhappy",BPE可能会先合并"ha"和"ap",最终生成子词[“hap”, “py”]和[“un”, “hap”, “py”]。

2025-03-04 15:19:58 958

原创 多头注意力如何进行拼接和线性变换

假设头1的输出是 ( A_1 ),头2的输出是 ( A_2 ),拼接后的矩阵 ( A ) 的形状为 ( [\text{序列长度} \times (d \times h)] )。假设每个头的维度是 ( d ),总共有 ( h ) 个头,那么每个头的输出维度是 ( d )。假设每个头的输出维度是2,我们有两个头,输入序列长度为3。

2025-03-04 02:11:23 700

原创 Transformer 多头注意力机制详解(示例详细推导)

今天,我们通过一个简单的例子来详细说明 Transformer 的多头注意力机制是如何工作的。假设我们有一个非常短的句子,只包含3个单词,我们用这个例子来逐步计算。

2025-03-04 02:02:37 1051

原创 docker镜像导出后,跨平台造成nvidia-smi不可用的问题

如果是通过save保存到本地的,镜像是一个tar包,则可以在新电脑上通过:因为windows的docker底层使用的WSL,和Linux不一样,所以在一个平台制作导出的镜像在另一个平台使用时,可能会出现gpu不可用的问题。比如在Ubuntu系统加载Windows平台导出的镜像时,通过创建容器后,那么接下来的内容就会详细如何解决跨平台无法使用GPU的问题。

2025-02-27 14:13:23 794 1

原创 docker启动容器后又自动关闭,无法run起来(特别是在docker桌面端)

比如通过下面该命令run一个容器,容器生成后发现既没有任何报错也没有消息提示但是就是自动关闭了。docker容器运行必须有一个前台进程, 如果没有前台进程执行,容器认为空闲,就会自行退出。容器运行的命令如果不是那些一直挂起的命令( 运行top,tail、循环等),就是会自动退出。在最后加上/bin/bash就可以了。例如在上面的基础上。

2025-02-14 00:08:09 505

原创 删除docker镜像和容器,磁盘空间未释放的问题

例如:D:\docker_files\DockerDesktopWSL\disk\docker_data.vhdx。

2025-02-13 18:55:54 269

原创 远程VNC连接服务器桌面失败、terminal打不开、vncviewer黑屏等问题

要配置 VNC 服务器以监听所有网络接口,您需要确保在启动 VNC 服务器时不使用 -localhost 参数,或者将其设置为 no。以下是具体步骤:停止当前运行的 VNC 服务器:这将终止显示编号为 :5 的 VNC 会话。启动 VNC 服务器以监听所有接口:启动 VNC 服务器时,不使用 -localhost 参数,或者将其设置为 no。

2025-02-10 21:04:19 2176

原创 OpenPCDet部署流程和相关问题

跑训练代码train.py文件时,要在tools目录下,不然会报以下错误。其中使用pip安装torch等包记得换源。在./OpenPCDet路径下安装依赖。安装 SparseConv 库,使用。然后在./OpenPCDet路径下。则修改kornia版本为0.6.5。或者压缩包下载到本地解压。运行过程若出现以下报错。

2025-02-09 18:09:41 499

原创 什么是效用函数

理解效用函数

2024-08-19 23:44:32 2120

原创 pycharm远程连服务器调试(debug)时出现收集数据(collecting data)的解决方案

pycharm远程连服务器调试(debug)时出现收集数据(collecting data)的解决方案

2024-08-01 13:13:44 990

原创 windows和linux如何换pip和conda源

这将打开pip的配置文件(如果配置文件不存在,则会创建一个新的),可以使用任何文本编辑器编辑该文件。[global]在这个例子中,我们将pip的源更改为豆瓣的镜像源。你可以选择其他镜像源,将替换为你选择的镜像源地址。保存并关闭配置文件。

2024-07-31 13:42:17 582

原创 Python实现变量值的二进制文件存储与读取

python怎么把变量的值存储为二进制文件,再读入

2024-07-31 13:33:44 512

原创 Stackelberg模型介绍和应用举例

Stackelberg模型介绍和举例

2024-07-30 16:54:59 2385

原创 Anaconda虚拟环境迁移方法

Anaconda虚拟环境迁移方法

2024-07-24 12:08:01 3960

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除