【Ubuntu】【亲测可用】关于安装Ubuntu20.04和Nvidia驱动与CUDA Toolkit及在Anaconda添加Pytorch验证CUDA是否可用

SleepingBug

已于 2023-09-06 16:21:00 修改

阅读量2.2k

点赞数 7

文章标签： ubuntu linux 运维

于 2023-09-06 15:40:35 首次发布

本文链接：https://blog.csdn.net/H_O_W_E/article/details/132713653

版权

1，使用rufus制作Ubuntu的U盘启动盘

rufus下载地址：https://rufus.ie/en/
我用的是rufus-3.20
Ubuntu镜像文件是ubuntu-20.04.4-desktop-amd64.iso，下载地址：Ubuntu 20.04.6 LTS (Focal Fossa)

然后如下图，开始

开始之后，会弹框提示选择ISO还是DD模式。特别要注意的，我选的是DD镜像模式

关于ISO和DD模式的区别，大家可以看看这里：boot - Is DD Image disk writing permanent? - Ask Ubuntu

而我使用DD模式的原因只有一个：

使用ISO镜像安装后，启动Ubuntu总是提示“Minimal BASH-like line editing is supported...”然后就是grub提示符的命令行，我试过网上很多方法都解决不了，就用DD镜像方式可以解决。

至于为什么会出现这个提示，大概率是我一番瞎操作把引导区搞没了，当时，我装了Ubuntu又装了Nvidia驱动后，重启、登录Ubuntu之后，黑屏，看不到桌面，只有鼠标，然后就开始瞎操作了。

——几番操作之后，才选择了现在的DD镜像模式！至于登陆后黑屏原因，等下讲到。

2，安装Nvidia驱动

2.1 查看一下有没Nvidia的GPU

先运行一下这条命令

lspci | grep -i nvidia

结果是有的

再试一下

nvidia-smi

结果是 command not found

说明没装GPU驱动

2.2 安装GPU驱动

2.2.1 安装gcc和make

因为是安装之后，刚开始用的，发现gcc和make都没装，

执行命令安装一下

sudo apt install gcc
sudo apt install make

2.2.2：禁用、卸载nouveau驱动

nouveau这个东东就是在安装Nvidia驱动之后造成黑屏的原因。

我自己的处理方式是禁用和删除都是搞：

（1）禁用nouveau

打开blacklist.conf文件：

sudo nano /etc/modprobe.d/blacklist.conf

添加内容：

blacklist nouveau
options nouveau modeset=0

然后退出、保存。

更新内核：

sudo update-initramfs -u

重启：

sudo reboot

（2）卸载nouveau驱动

注，有了删除这一步，可能上面禁用nouveau是多余的，我没去验证，我记录的是实际操作。

特别注意，有些文章说要添加源、降低gcc版本、先删除nvidia驱动的、动不动就升级的，千万不要瞎尝试！

卸载nouveau，使用命令

apt-get --purge remove xserver-xorg-video-nouveau

2.2.3：安装Nvidia驱动

使用命令查看一下

ubuntu-drivers devices

大概是这样子的

然后安装

ubuntu-drivers autoinstall

对的，我就是这么安装的。

然后重启

reboot

重启之后，登录，可以看见桌面正常看到桌面，

并且输入

nvidia-smi

也有内容显示出来了。

（上面这个图是我后来安装CUDA Toolkit之后截的，原来显示的CUDA Version不是12.2）

3，安装CUDA Toolkit

在这里，提醒大家一下，不要轻易尝试网上的博客，要认真看看Nvidia官网！！

Step1：进入CUDA下载页面

CUDA Toolkit 12.2 Update 2 Downloads | NVIDIA Developer

Step2：根据实际情况，按页面选项认真选择

后面这堆命令顺序执行

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin
sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600
wget https://developer.download.nvidia.com/compute/cuda/12.2.2/local_installers/cuda-repo-ubuntu2004-12-2-local_12.2.2-535.104.05-1_amd64.deb
sudo dpkg -i cuda-repo-ubuntu2004-12-2-local_12.2.2-535.104.05-1_amd64.deb
sudo cp /var/cuda-repo-ubuntu2004-12-2-local/cuda-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cuda

逐条命令执行，要有耐心，CUDA Toolkit超过2个G大小的

执行完毕之后，可以用nvcc试一下

nvcc -V

结果是command not found，别着急，还有一步。

Step3：在.bashrc加上cuda的路径

执行（主要啊，小数点是在文件名前面，不是在/前面）

sudo gedit ~/.bashrc

然后在最后面加上

export LD_LIBRARY_PATH=/usr/local/cuda/lib64
export PATH=$PATH:/usr/local/cuda/bin

保存文档，退出

然后更新一下

source ~/.bashrc

然后用nvcc再验证了一下

nvcc -V

这个时候我谨慎地重启了电脑

reboot

安装完成之后呢，运行nvidia-smi就会发现CUDA Version也更新了，截图就是我上面运行nvidia-smi后的截图。再说明一下，那个就是安装CUDA之后的截图，原先只安装驱动的时候没截图。

4，安装Anaconda和Pytorch

Step1：到Andaconda官网下载安装文件

网址：Free Download | Anaconda

我下载到的文件是Anaconda3-2023.07-2-Linux-x86_64.sh，有1.1G多。

Step2：执行.sh文件

bash ./Anaconda3-2023.07-2-Linux-x86_64.sh

Step3：创建环境

安装Anaconda妥当之后，我创建了一个python=3.7、名为py37的环境：

conda create -n py37 python=3.7

然后激活这个环境

conda activate py37

Step4：安装Pytorch

正如我前面所说的，大家不要轻易尝试网上的博客，多看官方网站。这里就要去Pytorch官网了

进入网址：PyTorch

根据实际情况选择，如下我的选择：

注意到，后面有一条命令，记得要在刚才的py37环境执行这条命令：

conda install pytorch torchvision torchaudio pytorch-cuda=11.7 -c pytorch -c nvidia

然后耐心等待就是了，其实也挺快的。

Step5：用Pytorch验证一下CUDA是否有效。

写个python文件

import torch
print(torch.__version__)
print(torch.cuda.is_available())

我们把这个文件保存为test.py，同样是在刚才的py37环境执行：

python test.py

最后结果是

(py37) howard@howard-ubuntu:~/Desktop/work-python$ python test.py
1.13.1
True

这说明Pytorch是可以识别刚才安装的CUDA的。

后话：Ubuntu安装Anaconda之后，每次打开终端都会自动进入base环境，怎么禁止掉呢？

在 ~/.bashrc文件添加一句

conda config --set auto_activate_base false

至此，全文完毕。

本文参考了以下文章，特此感谢

1）How to Install NVIDIA drivers on Ubuntu 20.04 LTS (Focal Fossa) | CyberITHub

2）ubuntu 20.04 NVIDIA GTX1080Ti 安装驱动 - TimZhong's Blog

3）ubuntu | 安装显卡驱动和CUDA | 犀牛的博客