计算机视觉基于CUDA编程的入门与实践线程及同步三

坐望云起

已于 2023-01-04 12:14:49 修改

阅读量972

点赞数

分类专栏：深度学习从入门到精通文章标签： c++ cuda 并行处理 NVIDIA 原子操作

于 2022-12-28 20:45:10 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bashendixie5/article/details/128473628

版权

深度学习从入门到精通专栏收录该内容

798 篇文章 ¥99.90 ¥299.90

订阅专栏

本文介绍了CUDA编程中线程同步的重要性和方法，如使用__syncthreads()实现屏障同步，强调了共享内存的高效性以及同步的重要性。此外，还探讨了原子操作在并行计算中的应用，通过示例展示了如何使用atomicAdd避免数据竞争问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、线程同步

对于需要线程之间互相交换数据才能完成任务的场景，必须存在某种能让线程彼此交流的机制。就需要共享内存，当很多线程并行工作并且访问相同的数据或者存储器位置的时候，线程间必须正确的同步。

不过，线程间交换数据并不一定需要使用共享内存，只是共享内存较快而已。使用全局内存同样可以。例如配合正确的同步操作或者原子操作（原子操作也支持全局内存），依然可以正确地完成任务。只是使用共享内存，很多情况下较快（延迟较低，带宽较大）而已。

为了确保并行线程协作时的正确结果，我们必须同步线程。CUDA 提供了一个简单的屏障同步原语__syncthreads()。线程的执行只有在其块中的所有线程都执行了。因此，我们可以通过在存储之后和从共享内存加载任何线程之前调用上述争用条件来避免上述争用条件。

二、共享内存

共享内存位于芯片内部，因此它比全局内存快得多。（CUDA里面存储器的快慢有两方面，一个是延迟低，一个是带宽大。这里特指延迟低），相比没有经过缓存的全局内存访问，共享内存大约在延迟上低100倍。同一个块中的线程可以访问相同的一段共享内存（注意：不同块中的线程所见到的共享内存中的内容是不相同的），这在许多线程需要与其他线程共享它们的结果的应用程序中非常有用。但是如果不同步，

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

坐望云起 如果觉得有用，请不吝打赏

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。