Nathan0921-CSDN博客

原创 Linux服务器管理（3）----- 实用又有深度的 Linux 服务器使用技巧

在实际工作中，熟练掌握这些工具与操作，不仅能有效提高日常维护的稳定性和安全性，更能帮助你构建出一套可靠、高效的服务器运维流程。等 Linux 服务器管理中的核心需求，既适合新手入门，也能为中高级用户提升效率提供借鉴。在后续的系列中，我还会继续分享更多实战中的 Linux 管理妙招，欢迎关注，一起进阶！启动新会话：（Very Important！：建议新建一个专用传输用户，仅开放所需目录读写权限。FTP、SFTP（推荐，基于 SSH）、FTPS。：可查看上传下载进度，暂停、重试、跳过异常文件。

2025-05-21 17:11:56 649

原创手撕Transformer系列（06）：封装 Transformer，英德翻译实战

import sysimport os# 添加项目根目录到 sys.path"""Transformer模型的封装：1. Encoder和Decoder的组合2. 采用残差连接和LayerNorm3. 前馈网络由两个线性变换和一个ReLU激活函数组成4. 多头自注意力机制由多个头组成，每个头都有自己的线性变换和缩放点积注意力计算5. 多头自注意力机制的输出经过线性变换和dropout6. 需要把tokenizer部分的token处理也要考虑进入的！！！！！"""模块已完成。

2025-05-13 20:06:53 374 1

原创手撕Transformer系列（05）：Encoder都拿下了，Decoder还不是手拿把掐

在 Transformer 中，Decoder 的任务是根据 Encoder 的输出（即编码后的上下文信息）一步步生成目标序列，它在训练时使用“Teacher Forcing”，在推理时使用“自回归”方式逐词生成。相比 Encoder，Decoder 多了一个重要机制：每一个 Transformer Decoder Layer 主要由以下三部分组成：Masked Multi-Head Self-Attention（自己对自己注意，但不能看到未来）Encoder-Decoder Attention（对Enco

2025-05-13 19:39:47 725

原创手撕Transfomer系列（04）：手撕Encoder，掰开揉碎给你看

在 Transformer 中，“Attention” 的本质就是一种信息加权聚合机制，即：给定一个Query（查询）向量，我们从一堆Key（键）向量中计算其相关性，然后使用这些相关性权重去加权组合对应的Value（值）向量。这就是我们所说的：注意力机制 = 相似度打分 + 权重加权而Scaled Dot-Product Attention（缩放点积注意力）是这一机制的具体数学实现方式。Embedding + N 层 EncoderLayer 堆叠。

2025-05-13 19:14:45 800

原创手撕Transfomer系列（03）：从Input -＞ TransformerEmbedding

在本节中，我们完成了 Transformer 架构中的第一个关键环节——输入表示的构建。从最初的数据预处理阶段开始，原始文本通过分词器（Tokenizer）转化为 token 序列，进一步通过词表（Vocab）映射为整数索引序列，最终输入模型的形式为的二维张量。：将 token index 查表映射为d_model维稠密向量；：使用固定的正弦-余弦函数对序列位置进行编码；：将两者组合，并引入 Dropout，构成完整的输入嵌入层。

2025-04-11 09:36:11 674

原创手撕Transfomer系列（02）：从Tokenizer-＞Dataset

通过详细拆分基于翻译任务的dataset构建过程，我们清楚了tokenizer只是对数据处理的第一步，更多的是需要规范的封装，例如：Field函数的使用，BucketIterator.split的调用以及build_vocab的使用都很关键，而这些都是torchtext库的相应功能组件，可以查看更多有关代码来进一步理解更多信息。[TorchText]使用 - 简书Torchtext使用教程 - 简书。

2025-04-09 17:50:06 903

原创手撕Transfomer系列（01）：一文搞定Tokenizer

调用spacy模型进行特定数据集的分词处理，当然这里可以使用类来定义Tokenizer。"""初始化 tokenizer,加载所需的spacy模型"""try:raise RuntimeError("请先运行：'python -m spacy download de_core_news_sm")try:raise RuntimeError("请先运行：'python -m spacy download en_core_web_sm")"""

2025-04-09 10:42:30 956

原创用于记录pytorch处理过程中不熟悉的函数运算规则--01

通过torch.bmm(batch1, batch2)，我们将batch1和batch2的最后两个维度进行矩阵乘法操作。这将生成一个形状为(10, 3, 5)的结果张量result，其中第一个维度表示批量大小，第二个维度表示batch1中的矩阵数量，第三个维度表示batch2中的矩阵数量。具体而言，torch.bmm(input, mat2)函数执行的是将input与mat2进行批量矩阵乘法的操作。这意味着它会对input和mat2的最后两个维度执行矩阵乘法，并保持其他维度不变。

2024-08-05 11:45:27 230

原创手撕深度学习：经典CNN网络结构理解汇总Lenet、Alexnet、VGG、Googlenet、Resnet

这些网络在深度学习的发展过程中起到了至关重要的作用，它们的设计思想和创新点为后续的研究和应用提供了宝贵的经验和灵感。也算是对卷积神经网络的一个小总结了，对网络的单一手撕感觉在2024年这个时间节点已经没有必要了，寻求统一的方式对过往经典卷积神经网络进行汇总说明是快速进入下一阶段内容学习的小技巧。通过理解和掌握这五种经典的卷积神经网络结构，我们可以深入了解卷积神经网络的发展历程和设计思路，为后续的深度学习研究和应用奠定坚实的基础。在这一章节，我们将详细的给出五种模型的网络结构，以方便通用调用来实现模型训练。

2024-08-03 16:01:11 1698