不搞学术柒柒-CSDN博客

原创收敛性分析（部分设备，不相同本地训练轮次）

Δt=1∑j∈StDjD∑k∈StDkD∑i=0lkt−1∇Gtk,i.\Delta_t = \frac{1}{\sum_{j \in S_t} \frac{D_j}{D}} \sum_{k \in S_t} \frac{D_k}{D} \sum_{i=0}^{l_k^t - 1} \nabla \mathcal{G}_t^{k,i}.Δt=∑j∈StDDj1k∈St∑DDki=0∑lkt−1∇Gtk,i.期望：E[Δt]=1∑j∈StDjD∑k∈StDkD∑i=0lkt−

2025-05-04 14:31:39 283

原创联邦学习的收敛性分析(全设备参与，不同本地训练轮次)

在联邦学习中，我们的目标是分析全局模型的收敛性，考虑设备异构性（不同用户的本地训练轮次不同）和数据异质性（用户数据分布不均匀）。以下推导从全局模型更新开始，逐步引入假设并推导期望损失的递减关系，最终给出收敛性结论。的偏差，反映数据分布的差异。相关的常数，后续可进一步推导其具体形式。的数据量，表明数据量越大，偏差越小。为常数，反映数据量对梯度幅度的约束。这一步考虑了不同用户的本地训练轮次。由于数据异质性，各用户的本地梯度。假设偏差在用户间近似抵消，即。为适应不同用户的本地训练轮次。轮本地训练时的梯度。

2025-04-30 19:42:35 696

原创《深度解析：Embedding词嵌入,轻松上手!》

关于词向量与 Embedding：Embedding 是以每个字在给定分布随机初始化的随机向量而组成的可学习参数矩阵，也就是一个全连接 Dense 层（即：密集层或线性层），其以 one-hot（一种将类别数据转换为数值型表示的方法）为输入，稠密向量为输出，即词向量。例如，对于一个包含 vocab_size=10000 个词汇的词汇表，每个词汇都会被表示为一个 10000 维的向量，其中只有一个位置是 1，其余位置都是 0。然后，这个 one-hot 向量会与一个权重矩阵（大小为 10000×embed_d

2025-04-30 19:30:57 782

qq_42890035的博客

原创收敛性分析（部分设备，不相同本地训练轮次）

原创联邦学习的收敛性分析(全设备参与，不同本地训练轮次)

原创《深度解析：Embedding词嵌入,轻松上手!》

原创《SentencePiece & Tokenizers：分词界的两大神器，如何在NLP项目中选择和使用？》

原创《分词算法大揭秘：BPE、BBPE、WordPiece、ULM常见方法介绍》

原创快速下载huggingface模型到本地

原创《图文并茂：大模型分词介绍》

原创多头注意力如何进行拼接和线性变换

原创 Transformer 多头注意力机制详解（示例详细推导）

原创 docker镜像导出后，跨平台造成nvidia-smi不可用的问题

原创 docker启动容器后又自动关闭，无法run起来（特别是在docker桌面端）

原创删除docker镜像和容器，磁盘空间未释放的问题

原创远程VNC连接服务器桌面失败、terminal打不开、vncviewer黑屏等问题

原创 OpenPCDet部署流程和相关问题

原创什么是效用函数

原创 pycharm远程连服务器调试（debug）时出现收集数据（collecting data）的解决方案

原创 windows和linux如何换pip和conda源

原创 Python实现变量值的二进制文件存储与读取

原创 Stackelberg模型介绍和应用举例

原创 Anaconda虚拟环境迁移方法

空空如也

空空如也