CUDA共享内存用于加速矩阵转置

makefish

于 2019-10-10 09:39:13 发布

阅读量792

点赞数

分类专栏： TensorFlowJS

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/makefish/article/details/102474711

版权

TensorFlowJS 专栏收录该内容

14 篇文章

订阅专栏

本文介绍了一种基于共享内存的矩阵转置算法，该算法利用GPU连续访问显存的优势，相较于传统方法实现了两倍以上的加速效果。通过使用共享内存作为中间缓存，避免了输入或输出数据的跨越式访问，从而大大提高了数据处理效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

直观上来看，矩阵转置和卷积等操作不同，不存在数据共享（卷积窗口在输入数据上滑动的时候，相邻数据存在共享），因为仅仅是将数据换个位置存储而已。

但是NVIDIA在https://github.com/NVIDIA-developer-blog/code-samples.git实现了一种基于共享内存的转置算法，在某些场景实现了两倍以上的加速，示意如下图（从做到右依次是：输入，共享内存，输出）：
在这里插入图片描述

其原理是，GPU访问连续连续的显存的时候，速度很快。而跨越式（stride）的方式访问，速度则很慢。如果没有中间的共享内存，输出或者输入，必有一方是跨越式访问的。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。