一文搞定cuda版本、显卡驱动及多CUDA版本管理

安装cuda是每个AI从业人员必经之路。网上关于cuda、显卡驱动已经相关命令很多都解释不清楚,于是本文梳理一下,既方便自己记忆,也方便小白学习。

CUDA

首先,CUDA版本,一般指cuda-toolkit,即cuda开发工具包,我们一般安装上层软件如pytorch等,都需要对应的toolkit版本就是指的CUDA版本。本机的CUDA版本,该怎么查询呢?

nvcc -V

这个命令,查到的就是本机正在用的cuda开发工具包的版本。注意,"nvidia-smi"查到的未必是最准确的本机cuda版本,后面我会给解释。

经过老黄团队的不懈努力,现在的cuda安装变得异常简单,有手就行。以cuda 11.3安装为例子,只需要简单搜索即可:

google search
我们很容易得到这个:

wget https://developer.download.nvidia.com/compute/cuda/11.3.0/local_installers/cuda_11.3.0_465.19.01_linux.run
sudo sh cuda_11.3.0_465.19.01_linux.run

当然,还有一个很方便的途径来获得下载链接:
https://developer.nvidia.com/cuda-toolkit-archive

注意:通过这个方法一键安装cuda时,会有一个选项可以选择是否安装对应的显卡驱动。如果你本地有多个CUDA的时候,这个显卡驱动慎选。
CUDA Installer
安装完驱动以后,才可以使用"nvidia-smi",这个命令查询的是本机显卡驱动所对应的cuda版本,未必是现在用的cuda工具包的版本。于是,经常出现"nvidia-smi"和"nvcc -V"版本不一致的情况。

知识点
1, 一台机器可以有多个CUDA版本,多个CUDA版本可以通过软连接进行管理;
2,一台机器通常只能安装一个显卡驱动;
3,对于严格要求显卡驱动版本的项目(涉及底层编译),需要重新安装对应的显卡驱动以支持对应cuda版本;
4,对于不严格要求显卡驱动版本的项目,我们简单修改CUDA软连接即可切换CUDA版本,这个情况下"nvidia-smi"和"nvcc -V"版本不一致也不会影响项目的运行。

现在写一下具体操作:
所有的cuda默认安装路径是:“/usr/local/”
我们定一个软链接目标地址:“/usr/local/cuda”,将我们需要切换的cuda版本链接到这个目标地址即可。
我们需要在~/.bashrc(有的是"~/.zshrc")加入对应的软链接目标地址:

export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH

注意:这里不要加入版本号(如PATH=/usr/local/cuda-11.3/bin:$PATH),不然不好做多版本CUDA管理。
我们source一下,就能激活这两句命令:(zsh用户自动切换成zshrc)

source ~/.bashrc

完成这一步,就可以:

nvcc -V

可以看到准确的cuda开发工具包的版本了,我们pytorch等的安装参照这个版本对应即可。

如何切换CUDA版本呢?

cd /usr/local/
sudo rm cuda
sudo ln -s cuda-11.8 cuda
ll #查看是否切换成功
# cuda -> cuda-11.8

然后看一下nvcc -V,你就会发现,CUDA版本已经切换。不过,你用"nvidia-smi"时,会发现cuda version还是没变。

如何改变"nvidia-smi"中显示的cuda version呢? 答:重新显卡安装驱动。这里实在要注意的是:显卡驱动会影响本机显示器的显示,如果是带图形界面的linux需要先关闭图形界面。
关闭图形界面:

sudo service lightdm stop

卸载当前版本的显卡驱动:《卸载nvidia显卡驱动

结论:我们在做多CUDA版本管理时,需要将多个CUDA版本安装到"/usr/local/"下,通过软链接切换。在涉及显卡驱动的更换时,我们需要将多个对应的显卡驱动安装文件,放到本地,随时准备安装这个版本的驱动。

如何获得对应CUDA版本的显卡驱动?答:直接运行CUDA runfile(即上文提到的cuda_11.3.0_465.19.01_linux.run),我们可以看到对应的nvidia驱动版本,然后到网上search对应的NVIDIA-Linux-x86_64-xxxx.run运行即可。当然,这一步也需要研究一下本机显卡的是否支持这个版本的驱动。
操作过程如下:

sudo chmod a+x NVIDIA-Linux-x86_64-465.19.01.run # 变成可执行文件
sudo ./NVIDIA-Linux-x86_64-465.19.01.run  --no-opengl-files # 执行安装

有一种说法(ChatGPT也这么说):

新版本的驱动会兼容老版本的CUDA。所以理论上我们安装一个最新的nvidia driver,就可以通过软链接来切换CUDA使用。我目前用这种方法,没出现太大的问题,仅供参考~

本文全部由本人整理,转发请询得同意,有问题欢迎留言交流~

### 查询已安装的CUDA版本CUDA 已正确安装并配置好环境变量时,可以使用种方法来查询其版本信息。 #### 方法一:通过 `nvcc` 命令 可以通过命令行工具 nvcc 来获取编译器所支持的 CUDA 版本: ```bash nvcc --version ``` 这条指令会打印出详细的版本号以及其他相关信息[^1]。 #### 方法二:查阅 NVIDIA 驱动程序日志文件 对于某些系统而言,在 `/var/log/nvidia-installer.log` 或者其他位置的日志文件里也可能记录有 CUDA版本详情。不过这种方法不如前一种常见和直接。 #### 方法三:检查 CUDA 安装路径下的文档 通常情况下,CUDA 库会被放置在一个特定的位置如 `/usr/local/cuda-X.Y/` (其中 X 和 Y 表示具体的次版本),因此可以直接访问该目录并通过阅读 README 文件或其他说明材料了解当前使用的 CUDA 发布版情况。 ```python import os def get_cuda_version(): cuda_path = '/usr/local' dirs = [d for d in os.listdir(cuda_path) if 'cuda' in d and '.' in d] if not dirs: return "No CUDA installation found." latest_dir = sorted(dirs)[-1] version = latest_dir.replace('cuda-', '') return f"CUDA Version {version}" print(get_cuda_version()) ``` 此 Python 脚本尝试自动检测 Linux 系统上最新安装的 CUDA 版本,并将其输出给用户。请注意这只是一个简单的实现方式,实际环境中可能需要更复杂的逻辑处理不同操作系统之间的差异以及异常状况。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

木盏

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值