- 博客(20)
- 收藏
- 关注
原创 收敛性分析(部分设备,不相同本地训练轮次)
Δt=1∑j∈StDjD∑k∈StDkD∑i=0lkt−1∇Gtk,i.\Delta_t = \frac{1}{\sum_{j \in S_t} \frac{D_j}{D}} \sum_{k \in S_t} \frac{D_k}{D} \sum_{i=0}^{l_k^t - 1} \nabla \mathcal{G}_t^{k,i}.Δt=∑j∈StDDj1k∈St∑DDki=0∑lkt−1∇Gtk,i.期望:E[Δt]=1∑j∈StDjD∑k∈StDkD∑i=0lkt−
2025-05-04 14:31:39
283
原创 联邦学习的收敛性分析(全设备参与,不同本地训练轮次)
在联邦学习中,我们的目标是分析全局模型的收敛性,考虑设备异构性(不同用户的本地训练轮次不同)和数据异质性(用户数据分布不均匀)。以下推导从全局模型更新开始,逐步引入假设并推导期望损失的递减关系,最终给出收敛性结论。的偏差,反映数据分布的差异。相关的常数,后续可进一步推导其具体形式。的数据量,表明数据量越大,偏差越小。为常数,反映数据量对梯度幅度的约束。这一步考虑了不同用户的本地训练轮次。由于数据异质性,各用户的本地梯度。假设偏差在用户间近似抵消,即。为适应不同用户的本地训练轮次。轮本地训练时的梯度。
2025-04-30 19:42:35
696
原创 《深度解析:Embedding词嵌入,轻松上手!》
关于词向量与 Embedding:Embedding 是以每个字在给定分布随机初始化的随机向量而组成的可学习参数矩阵,也就是一个全连接 Dense 层(即:密集层或线性层),其以 one-hot(一种将类别数据转换为数值型表示的方法)为输入,稠密向量为输出,即词向量。例如,对于一个包含 vocab_size=10000 个词汇的词汇表,每个词汇都会被表示为一个 10000 维的向量,其中只有一个位置是 1,其余位置都是 0。然后,这个 one-hot 向量会与一个权重矩阵(大小为 10000×embed_d
2025-04-30 19:30:57
782
原创 《SentencePiece & Tokenizers:分词界的两大神器,如何在NLP项目中选择和使用?》
常见的分词库有两种:SentencePiece和Tokenizers
2025-04-30 19:03:46
673
原创 《分词算法大揭秘:BPE、BBPE、WordPiece、ULM常见方法介绍》
分词算法是自然语言处理(NLP)中的一个重要预处理步骤,它将文本分割成更小的单元(如单词、子词或字符)。以下是几种常见的分词算法:Byte Pair Encoding (BPE)、Byte-level BPE (BBPE)、WordPiece 和 Unigram Language Model (ULM)
2025-04-30 18:40:16
1371
原创 《图文并茂:大模型分词介绍》
例如,对于一个生僻词“unbelievable”,它可以被拆分成“un-”、“believ-”和“-able”这样的子词,这些子词在词表中出现的频率可能更高,从而避免了整个单词因未出现在词表中而无法处理的情况。然而,分词方式的选择和实现会引入一系列问题,这些问题可能导致模型在某些任务上表现不佳,甚至出现看似奇怪的现象。例如,对于单词"happy"和"unhappy",BPE可能会先合并"ha"和"ap",最终生成子词[“hap”, “py”]和[“un”, “hap”, “py”]。
2025-03-04 15:19:58
958
原创 多头注意力如何进行拼接和线性变换
假设头1的输出是 ( A_1 ),头2的输出是 ( A_2 ),拼接后的矩阵 ( A ) 的形状为 ( [\text{序列长度} \times (d \times h)] )。假设每个头的维度是 ( d ),总共有 ( h ) 个头,那么每个头的输出维度是 ( d )。假设每个头的输出维度是2,我们有两个头,输入序列长度为3。
2025-03-04 02:11:23
700
原创 Transformer 多头注意力机制详解(示例详细推导)
今天,我们通过一个简单的例子来详细说明 Transformer 的多头注意力机制是如何工作的。假设我们有一个非常短的句子,只包含3个单词,我们用这个例子来逐步计算。
2025-03-04 02:02:37
1051
原创 docker镜像导出后,跨平台造成nvidia-smi不可用的问题
如果是通过save保存到本地的,镜像是一个tar包,则可以在新电脑上通过:因为windows的docker底层使用的WSL,和Linux不一样,所以在一个平台制作导出的镜像在另一个平台使用时,可能会出现gpu不可用的问题。比如在Ubuntu系统加载Windows平台导出的镜像时,通过创建容器后,那么接下来的内容就会详细如何解决跨平台无法使用GPU的问题。
2025-02-27 14:13:23
794
1
原创 docker启动容器后又自动关闭,无法run起来(特别是在docker桌面端)
比如通过下面该命令run一个容器,容器生成后发现既没有任何报错也没有消息提示但是就是自动关闭了。docker容器运行必须有一个前台进程, 如果没有前台进程执行,容器认为空闲,就会自行退出。容器运行的命令如果不是那些一直挂起的命令( 运行top,tail、循环等),就是会自动退出。在最后加上/bin/bash就可以了。例如在上面的基础上。
2025-02-14 00:08:09
505
原创 删除docker镜像和容器,磁盘空间未释放的问题
例如:D:\docker_files\DockerDesktopWSL\disk\docker_data.vhdx。
2025-02-13 18:55:54
269
原创 远程VNC连接服务器桌面失败、terminal打不开、vncviewer黑屏等问题
要配置 VNC 服务器以监听所有网络接口,您需要确保在启动 VNC 服务器时不使用 -localhost 参数,或者将其设置为 no。以下是具体步骤:停止当前运行的 VNC 服务器:这将终止显示编号为 :5 的 VNC 会话。启动 VNC 服务器以监听所有接口:启动 VNC 服务器时,不使用 -localhost 参数,或者将其设置为 no。
2025-02-10 21:04:19
2176
原创 OpenPCDet部署流程和相关问题
跑训练代码train.py文件时,要在tools目录下,不然会报以下错误。其中使用pip安装torch等包记得换源。在./OpenPCDet路径下安装依赖。安装 SparseConv 库,使用。然后在./OpenPCDet路径下。则修改kornia版本为0.6.5。或者压缩包下载到本地解压。运行过程若出现以下报错。
2025-02-09 18:09:41
499
原创 pycharm远程连服务器调试(debug)时出现收集数据(collecting data)的解决方案
pycharm远程连服务器调试(debug)时出现收集数据(collecting data)的解决方案
2024-08-01 13:13:44
990
原创 windows和linux如何换pip和conda源
这将打开pip的配置文件(如果配置文件不存在,则会创建一个新的),可以使用任何文本编辑器编辑该文件。[global]在这个例子中,我们将pip的源更改为豆瓣的镜像源。你可以选择其他镜像源,将替换为你选择的镜像源地址。保存并关闭配置文件。
2024-07-31 13:42:17
582
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人