如何在 Ubuntu 上安装 NVIDIA CUDA 与 cuDNN：GPU 加速完整设置指南

1. 介绍

CUDA（Compute Unified Device Architecture）是 NVIDIA 提供的并行计算平台和 API，能够利用 GPU 实现高速处理。
它在机器学习、深度学习和科学计算等领域得到广泛应用。
本文将逐步说明在 Ubuntu 环境下安装 CUDA 的过程。

2. 前置条件

2.1 如何检查是否支持的 GPU

首先，确认系统中安装的 NVIDIA GPU 是否兼容 CUDA。
在终端中运行以下命令：

lspci | grep -i nvidia

如果输出中出现 NVIDIA 设备，则说明已识别到你的 GPU。
你可以在 NVIDIA 官方网站上查看完整的支持 GPU 列表。

2.2 检查 Ubuntu 版本

CUDA 只支持特定的 Ubuntu 版本。
使用以下命令检查当前的 Ubuntu 版本：

lsb_release -a

一般推荐使用 Ubuntu LTS（长期支持）版本。
请参考 NVIDIA 官方文档获取最新的支持信息。

2.3 检查是否已安装 gcc

安装 CUDA 需要 gcc 编译器。
使用以下命令检查 gcc 的安装状态：

gcc --version

如果系统未安装 gcc，请运行以下命令进行安装：

sudo apt install build-essential

3. 安装 NVIDIA 驱动

3.1 移除已有驱动

如果系统中已安装旧版 NVIDIA 驱动，请先将其移除，以免产生冲突。
运行以下命令：

sudo apt-get --purge remove '*nvidia*'
sudo apt-get autoremove

3.2 选择并安装合适的驱动

在 NVIDIA 官方网站上查找与你的 GPU 匹配的驱动，然后按照以下步骤进行安装。

添加仓库 — 运行以下命令添加 NVIDIA 驱动仓库：

sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt-get update

检查推荐驱动 — 使用该命令查找推荐的驱动版本：
```
ubuntu-drivers devices
```

安装标记为“recommended”的驱动。

安装驱动 — 安装时指定推荐的版本号：

sudo apt install nvidia-driver-<recommended-version>

重启系统 — 安装完成后，重新启动 Ubuntu：
```
sudo reboot
```

4. 安装 CUDA Toolkit

4.1 选择 CUDA 版本

在官方 CUDA 下载页面上，查看与你的 GPU 和 Ubuntu 发行版兼容的 CUDA 版本。
如果选择最新版本，请确保与你的软件和库兼容。

4.2 添加仓库并安装

按照以下步骤安装 CUDA Toolkit。

添加仓库 — 以下示例使用 Ubuntu 20.04：

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin
sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600

添加仓库密钥 — 获取并安装仓库密钥：

sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/7fa2af80.pub

安装 CUDA 包 — 安装 CUDA Toolkit：
```
sudo apt update
sudo apt install cuda
```

验证安装 — 确认 CUDA 已成功安装：
```
nvcc --version
```

5. 设置环境变量

5.1 配置 PATH 和 LD_LIBRARY_PATH

要使用 CUDA，需要正确配置环境变量。请按以下步骤操作：

编辑 .bashrc 文件
```
nano ~/.bashrc
```

添加以下行

export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH

应用更改 — 保存后重新加载终端：
```
source ~/.bashrc
```

6. 安装 cuDNN

6.1 什么是 cuDNN?

cuDNN（CUDA 深度神经网络库）是一个针对深度学习工作负载进行 GPU 加速优化的库。

6.2 下载 cuDNN

从官方 NVIDIA 网站下载与已安装 CUDA 版本兼容的 cuDNN。
需要拥有 NVIDIA 账户才能下载。

6.3 安装步骤

解压压缩包 — 解压下载的 cuDNN 压缩文件：
```
tar -xzvf cudnn-<version>.tgz
```

复制文件 — 将必要的文件复制到 CUDA 目录中：

sudo cp cuda/include/cudnn*.h /usr/local/cuda/include
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64
sudo chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*

验证安装 — 使用以下命令检查 cuDNN 版本：

cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2

7. 验证安装

7.1 检查 CUDA 是否正常工作

运行以下命令以确认 CUDA 已正确安装：

nvcc --version

7.2 运行示例程序

执行 CUDA 示例程序以测试功能。

设置示例程序

cuda-install-samples-<version>.run
cd ~/NVIDIA_CUDA-<version>_Samples/1_Utilities/deviceQuery
make

运行程序
```
./deviceQuery
```

如果输出显示 “PASS”，则说明安装成功。

8. 故障排除

8.1 常见问题及解决方案

问题： CUDA 未被识别 解决方案： 重新检查环境变量并重启系统。
问题： GPU 未被使用 解决方案： 尝试重新安装 NVIDIA 驱动。
问题： CUDA 与软件不兼容 解决方案： 查看软件支持的 CUDA 版本并安装对应的版本。

9. 结论

本文详细演示了在 Ubuntu 环境下安装 CUDA 和 cuDNN 的完整步骤。
按照这些步骤操作，即可构建高性能的 GPU 计算环境。
如果您计划进行深度学习或科学计算，建议接下来配置 TensorFlow 或 PyTorch。