【深度学习】Transformer梳理

gzr_csdn

已于 2024-05-30 11:19:49 修改

阅读量1.8k

点赞数 13

分类专栏：深度学习文章标签：深度学习 transformer 人工智能

于 2024-05-29 03:02:03 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gzr_csdn/article/details/139281424

版权

零、前言

对于transformer，网上的教程使用记号、术语不一。
最关键的一点，网上各种图的简化程度不一 ~~（画个图怎么能这么偷懒）~~ ，所以我打算自己手画一次图。
看到的最和善（但是不是那么靠谱，我怀疑图有误）的transformer教程：一文了解Transformer全貌（图解Transformer）

注意： 全连接层在概念上输入必须是一维向量，但是实际实现的时候我们会采用批处理将多个样本的向量组拼成矩阵，用矩阵乘法加速运算。如果用单一样本的向量来标注全文可能更清晰，但是为了更贴近实用，约定全文的输入长这个样子而不是向量：

输入为X矩阵其实，输入也不是矩阵。。。输入是3维张量，三个维度分别是batch_size, number（当前用到的词数）, dimension（特征维度）
其中，number没有画出来，你可以按number=1来想，当成矩阵方便一些

一、前置基础中的前置基础

RNN
残差连接（无论什么书，通常会在CNN的ResNet这一节中讲）
归一化
注意力机制

最低0.47元/天解锁文章

博客等级

码龄2年

27
原创

253
点赞

236
收藏

189
粉丝

关注

私信

热门文章

分类专栏

FPGA 1篇
深度学习 1篇
图论 2篇
动态规划 2篇
数据结构 3篇
题解 2篇
算法 5篇
实用 5篇
搜索算法 1篇
排序算法 1篇

展开全部收起

最新评论

【深度学习】Transformer梳理
百锦再@新空间: 这篇《【深度学习】Transformer梳理》文章真是如同一场绚丽的烟花盛宴，以深邃的洞察力和清晰的逻辑，将Transformer这一复杂而优秀的深度学习模型剖析得淋漓尽致。文字间迸发着智慧的火花，引领读者穿梭在机器学习的海洋中，感受到知识的魅力与力量。让我们一同感受这份卓越的学术之美，为作者的辛勤功夫和智慧所倾倒！
【深度学习】Transformer梳理
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
【深度学习】Transformer梳理
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
【深度学习】Transformer梳理
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/618784672。
P1111 修复公路题解（间接排序+并查集）
CSDN-Ada助手: 算法技能树或许可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm

大家在看

最新文章

目录

展开全部

收起

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。