DGFfdAf-CSDN博客

原创【深度学习】fasttext工具介绍，了解什么是文本分类及其种类.掌握fasttext工具进行文本分类的过程

进行文本分类训练词向量文本分类的是将文档（例如电子邮件，帖子，文本消息，产品评论等）分配给一个或多个类别. 当今文本分类的实现多是使用机器学习方法从训练数据中提取分类规则以进行分类, 因此构建文本分类器需要带标签的数据.

2024-09-23 22:29:38 1119 1

原创【深度学习】Transformer机器翻译模型，了解有关机器翻译的知识，seq2seq架构，掌握使用Transformer构建机器翻译模型的实现过程

使用的是torchtext中自带的数据集Multi30k, 直接可以使用内置的API函数即可下载# 默认下载的路径为: /root/.torchtext/cache/Multi30k├── val.de├── val.en# 定义特殊字符及其对应的索引值# 确保标记按其索引的顺序正确插入到词汇表中# 训练数据集的迭代器,# 数据集是用英文描述图像的英文语句, 然后人工将其翻译为德文的语句,有两个文件, 一个是train.de 一个是train.en文件,

2024-09-22 23:51:58 2699 1

原创【深度学习】Transformer掌握文本嵌入层和位置编码的实现过程，解码器中各个组成部分的实现过程，线性层和softmax的实现过程.

源文本嵌入层及其位置编码器目标文本嵌入层及其位置编码器由N个解码器层堆叠而成每个解码器层由三个子层连接结构组成第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接第二个子层连接结构包括一个多头注意力子层和规范化层以及一个残差连接第三个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接说明:解码器层中的各个部分，如，多头注意力机制，规范化层，前馈全连接网络，子层连接结构都与编码器中的实现相同. 因此这里可以直接拿来构建解码器层.

2024-09-20 08:58:58 1548 1

原创【深度学习】Transformer编码器部分实现，了解编码器各个部分的作用和实现原理

编码器部分: * 由N个编码器层堆叠而成 * 每个编码器层由两个子层连接结构组成 * 第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接 * 第二个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接掩代表遮掩，码就是我们张量中的数值，它的尺寸不定，里面一般只有1和0的元素，代表位置被遮掩或者不被遮掩，至于是0位置被遮掩还是1位置被遮掩可以自定义，因此它的作用就是让另外一个张量中的一些数值被遮掩，也可以说被替换, 它的表现形式是一个张量.

2024-09-19 22:40:46 2592 1

原创【深度学习】了解Transformer背景，了解Transformer模型的作用

在接下来的架构分析中, 我们将假设使用Transformer模型架构处理从一种语言文本到另一种语言文本的翻译工作, 因此很多命名方式遵循NLP中的规则. 比如: Embeddding层将称作文本嵌入层, Embedding层产生的张量称为词嵌入张量, 它的最后一维将称作词向量等.而在BERT中发挥重要作用的结构就是Transformer, 之后又相继出现XLNET，roBERT等模型击败了BERT，但是他们的核心没有变，仍然是：Transformer。

2024-09-16 21:40:04 945 3

原创【深度学习】注意力机制介绍，了解什么是注意力计算规则以及常见的计算规则，知道注意力机制的工作流程

我们观察事物时，之所以能够快速判断一种事物(当然允许判断是错误的), 是因为我们大脑能够很快把注意力放在事物最具有辨识度的部分从而作出判断，而并非是从头到尾的观察一遍事物后，才能有判断结果. 正是基于这样的理论，就产生了注意力机制.注意力机制是注意力计算规则能够应用的深度学习网络的载体, 同时包括一些必要的全连接层以及相关张量处理, 使其与应用网络融为一体. 使用自注意力计算规则的注意力机制称为自注意力机制.

2024-09-13 09:28:53 2288 4

原创【深度学习】LSTM模型，GRU模型计算公式及其优缺点介绍

LSTM（Long Short-Term Memory）也称长短时记忆结构, 它是传统RNN的变体, 与经典RNN相比能够有效捕捉长序列之间的语义关联, 缓解梯度消失或爆炸现象. 同时LSTM的结构更复杂, 它的核心结构可以分为四个部分去解析: 遗忘门结构分析:遗忘门内部结构过程演示: 输入门结构分析:输入门内部结构过程演示: 细胞状态更新分析:细胞状态更新过程演示: 输出门结构分析:输出门内部结构过程演示: Bi-LSTM即双向LSTM, 它没有改变LSTM本身任何的内部结构, 只是将LSTM应用两

2024-09-05 09:10:22 3458 1

原创【深度学习】认识RNN模型，了解RNN模型的作用，分类，传统RNN的优缺点

RNN(Recurrent Neural Network), 中文称作循环神经网络, 它一般以序列数据为输入, 通过网络内部的结构设计有效捕捉序列之间的关系特征, 一般也是以序列形式进行输出.一般单层神经网络结构:RNN单层网络结构:以时间步对RNN进行展开后的单层网络结构:RNN的循环机制使模型隐层上一时间步产生的结果, 能够作为当下时间步输入的一部分(当下时间步的输入除了正常的输入外还包括上一步的隐层输出)对当下时间步的输出产生影响.

2024-08-29 22:34:45 1741 1

原创【深度学习】文本数据分析，数据增强的作用及方法，文本特征处理的作用及方法

文本数据分析能够有效帮助我们理解数据语料, 快速检查出语料可能存在的问题, 并指导之后模型训练过程中一些超参数的选择.标签数量分布句子长度分布词频统计与关键词词云给定一段文本序列, 其中n个词或字的相邻共现特征即n-gram特征, 常用的n-gram特征是bi-gram和tri-gram特征, 分别对应n为2和3.假设给定分词列表: ["是谁", "敲动", "我心"]对应的数值映射列表为: [1, 34, 21]我们可以认为数值映射列表中的每个数字是词汇特征.

2024-08-26 22:50:13 1527 1

原创【深度学习】文本张量表示方法

将一段文本使用张量进行表示，其中一般将词汇为表示成向量，称作词向量，再由各个词向量按顺序组成矩阵形成文本表示.举个例子: 文本张量表示的作用:文本张量表示的方法:又称独热编码，将每个词表示成具有n个元素的向量，这个词向量中只有一个元素是1，其他元素都是0，不同词汇元素为0的位置不同，其中n的大小是整个语料中不同词汇的总数.举个例子: 输出效果: onehot编码器的使用: 输出效果: one-hot编码的优劣势：劣势：完全割裂了词与词之间的联系，而且在大

2024-08-24 22:41:24 1320 1

原创 [深度学习]了解常见优化方法的问题及解决方案

传统的梯度下降优化算法中，可能会碰到以下情况：碰到平缓区域，梯度值较小，参数优化变慢碰到 “鞍点” ，梯度为 0，参数无法优化碰到局部最小值对于这些问题, 出现了一些对梯度下降算法的优化方法，例如：Momentum、AdaGrad、RMSprop、Adam 等.

2024-08-23 22:52:33 1128 1

原创深度学习梯度下降算法，链式法则，反向传播算法

多层神经网络的学习能力比单层网络强得多。想要训练多层网络，需要更强大的学习算法。误差反向传播算法（Back Propagation）是其中最杰出的代表，它是目前最成功的神经网络学习算法。现实任务使用神经网络时，大多是在使用 BP 算法进行训练，值得指出的是 BP 算法不仅可用于多层前馈神经网络，还可以用于其他类型的神经网络。通常说 BP 网络时，一般是指用 BP 算法训练的多层前馈神经网络。这就需要了解两个概念： 1. 正向传播 2. 反向传播。

2024-08-15 14:55:17 2713 2

原创深度学习理解非线性因素，知道常见激活函数

从 sigmoid 函数图像可以得到，sigmoid 函数可以将任意的输入映射到 (0, 1) 之间，当输入的值大致在 <-6 或者 >6 时，意味着输入任何值得到的激活值都是差不多的，这样会丢失部分的信息。Softmax 直白来说就是将网络输出的 logits 通过 softmax 函数，就映射成为(0,1)的值，而这些值的累和为1（满足概率的性质），那么我们将它理解成概率，选取概率最大（也就是值对应最大的）节点，作为我们的预测目标类别。如果ReLu效果不好，那么尝试其他激活，如Leaky ReLu等。

2024-08-14 23:25:01 1203 1

DGFfdAf的博客