一文搞定cuda版本、显卡驱动及多CUDA版本管理

木盏

已于 2024-05-24 15:05:26 修改

阅读量3.1k

点赞数 20

分类专栏： Linux 文章标签： cuda nvidia-smi

于 2024-05-24 13:55:03 首次发布

本文链接：https://blog.csdn.net/leviopku/article/details/139172318

版权

Linux 专栏收录该内容

40 篇文章

订阅专栏

安装cuda是每个AI从业人员必经之路。网上关于cuda、显卡驱动已经相关命令很多都解释不清楚，于是本文梳理一下，既方便自己记忆，也方便小白学习。

CUDA

首先，CUDA版本，一般指cuda-toolkit，即cuda开发工具包，我们一般安装上层软件如pytorch等，都需要对应的toolkit版本就是指的CUDA版本。本机的CUDA版本，该怎么查询呢？

nvcc -V

这个命令，查到的就是本机正在用的cuda开发工具包的版本。注意，"nvidia-smi"查到的未必是最准确的本机cuda版本，后面我会给解释。

经过老黄团队的不懈努力，现在的cuda安装变得异常简单，有手就行。以cuda 11.3安装为例子，只需要简单搜索即可：

google search
我们很容易得到这个：

wget https://developer.download.nvidia.com/compute/cuda/11.3.0/local_installers/cuda_11.3.0_465.19.01_linux.run
sudo sh cuda_11.3.0_465.19.01_linux.run

当然，还有一个很方便的途径来获得下载链接：
https://developer.nvidia.com/cuda-toolkit-archive

注意：通过这个方法一键安装cuda时，会有一个选项可以选择是否安装对应的显卡驱动。如果你本地有多个CUDA的时候，这个显卡驱动慎选。
CUDA Installer
安装完驱动以后，才可以使用"nvidia-smi"，这个命令查询的是本机显卡驱动所对应的cuda版本，未必是现在用的cuda工具包的版本。于是，经常出现"nvidia-smi"和"nvcc -V"版本不一致的情况。

知识点：
1，一台机器可以有多个CUDA版本，多个CUDA版本可以通过软连接进行管理；
2，一台机器通常只能安装一个显卡驱动；
3，对于严格要求显卡驱动版本的项目（涉及底层编译），需要重新安装对应的显卡驱动以支持对应cuda版本；
4，对于不严格要求显卡驱动版本的项目，我们简单修改CUDA软连接即可切换CUDA版本，这个情况下"nvidia-smi"和"nvcc -V"版本不一致也不会影响项目的运行。

现在写一下具体操作：
所有的cuda默认安装路径是：“/usr/local/”
我们定一个软链接目标地址：“/usr/local/cuda”，将我们需要切换的cuda版本链接到这个目标地址即可。
我们需要在~/.bashrc（有的是"～/.zshrc"）加入对应的软链接目标地址：

export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH

注意：这里不要加入版本号（如PATH=/usr/local/cuda-11.3/bin:$PATH），不然不好做多版本CUDA管理。
我们source一下，就能激活这两句命令：（zsh用户自动切换成zshrc）

source ~/.bashrc

完成这一步，就可以:

nvcc -V

可以看到准确的cuda开发工具包的版本了，我们pytorch等的安装参照这个版本对应即可。

如何切换CUDA版本呢？

cd /usr/local/
sudo rm cuda
sudo ln -s cuda-11.8 cuda
ll #查看是否切换成功
# cuda -> cuda-11.8

然后看一下nvcc -V，你就会发现，CUDA版本已经切换。不过，你用"nvidia-smi"时，会发现cuda version还是没变。

如何改变"nvidia-smi"中显示的cuda version呢？答：重新显卡安装驱动。这里实在要注意的是：显卡驱动会影响本机显示器的显示，如果是带图形界面的linux需要先关闭图形界面。
关闭图形界面：

sudo service lightdm stop

卸载当前版本的显卡驱动：《卸载nvidia显卡驱动》

结论：我们在做多CUDA版本管理时，需要将多个CUDA版本安装到"/usr/local/"下，通过软链接切换。在涉及显卡驱动的更换时，我们需要将多个对应的显卡驱动安装文件，放到本地，随时准备安装这个版本的驱动。

如何获得对应CUDA版本的显卡驱动？答：直接运行CUDA runfile（即上文提到的cuda_11.3.0_465.19.01_linux.run），我们可以看到对应的nvidia驱动版本，然后到网上search对应的NVIDIA-Linux-x86_64-xxxx.run运行即可。当然，这一步也需要研究一下本机显卡的是否支持这个版本的驱动。
操作过程如下：

sudo chmod a+x NVIDIA-Linux-x86_64-465.19.01.run # 变成可执行文件
sudo ./NVIDIA-Linux-x86_64-465.19.01.run  --no-opengl-files # 执行安装

有一种说法（ChatGPT也这么说）：

新版本的驱动会兼容老版本的CUDA。所以理论上我们安装一个最新的nvidia driver，就可以通过软链接来切换CUDA使用。我目前用这种方法，没出现太大的问题，仅供参考～

本文全部由本人整理，转发请询得同意，有问题欢迎留言交流～