算法岗常考面试题：transformer中的attention为什么要除以根号d_k

最新推荐文章于 2025-03-04 17:53:45 发布

捡起一束光

最新推荐文章于 2025-03-04 17:53:45 发布

阅读量5k

点赞数 11

文章标签：算法 transformer 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43827595/article/details/125800615

版权

相关博客：手把手教你用Pytorch代码实现Transformer模型（超详细的代码解读）

我们知道attention其实有很多种形式，而transformer论文中的attention是Scaled Dot-Porduct Attention，如下图所示：

那么问题来了，这里的attention为什么要做除以根号d_k呢？

一句话概括就是：如果不对softmax的输入做缩放，那么万一输入的数量级很大，softmax的梯度就会趋向于0，导致梯度消失。
在这里插入图片描述

在这里插入图片描述

证明

Properties of Dot Product of Random Vectors

Attention is All You Need并没有对下面的话进行证明：
在这里插入图片描述

证明：
在这里插入图片描述

你想现在scaled后，q*k的均值为0，方差为1，那自然数值不会很大了。

(原来的方差是d_k，d_k如果很大，比如256，那softmax就容易出现梯度消失）

相关资料

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

捡起一束光 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。