如何在 Ubuntu 上安装 NVIDIA CUDA 与 cuDNN:GPU 加速完整设置指南

1. 介绍

CUDA(Compute Unified Device Architecture)是 NVIDIA 提供的并行计算平台和 API,能够利用 GPU 实现高速处理。
它在机器学习、深度学习和科学计算等领域得到广泛应用。
本文将逐步说明在 Ubuntu 环境下安装 CUDA 的过程。

2. 前置条件

2.1 如何检查是否支持的 GPU

首先,确认系统中安装的 NVIDIA GPU 是否兼容 CUDA。
在终端中运行以下命令:

lspci | grep -i nvidia

如果输出中出现 NVIDIA 设备,则说明已识别到你的 GPU。
你可以在 NVIDIA 官方网站上查看完整的支持 GPU 列表。

2.2 检查 Ubuntu 版本

CUDA 只支持特定的 Ubuntu 版本。
使用以下命令检查当前的 Ubuntu 版本:

lsb_release -a

一般推荐使用 Ubuntu LTS(长期支持)版本。
请参考 NVIDIA 官方文档获取最新的支持信息。

2.3 检查是否已安装 gcc

安装 CUDA 需要 gcc 编译器。
使用以下命令检查 gcc 的安装状态:

gcc --version

如果系统未安装 gcc,请运行以下命令进行安装:

sudo apt install build-essential

3. 安装 NVIDIA 驱动

3.1 移除已有驱动

如果系统中已安装旧版 NVIDIA 驱动,请先将其移除,以免产生冲突。
运行以下命令:

sudo apt-get --purge remove '*nvidia*'
sudo apt-get autoremove

3.2 选择并安装合适的驱动

在 NVIDIA 官方网站上查找与你的 GPU 匹配的驱动,然后按照以下步骤进行安装。

  1. 添加仓库 — 运行以下命令添加 NVIDIA 驱动仓库:
    sudo add-apt-repository ppa:graphics-drivers/ppa
    sudo apt-get update
    
  1. 检查推荐驱动 — 使用该命令查找推荐的驱动版本:
    ubuntu-drivers devices
    

安装标记为“recommended”的驱动。

  1. 安装驱动 — 安装时指定推荐的版本号:
    sudo apt install nvidia-driver-<recommended-version>
    
  1. 重启系统 — 安装完成后,重新启动 Ubuntu:
    sudo reboot
    

4. 安装 CUDA Toolkit

4.1 选择 CUDA 版本

官方 CUDA 下载页面上,查看与你的 GPU 和 Ubuntu 发行版兼容的 CUDA 版本。
如果选择最新版本,请确保与你的软件和库兼容。

4.2 添加仓库并安装

按照以下步骤安装 CUDA Toolkit。

  1. 添加仓库 — 以下示例使用 Ubuntu 20.04:
    wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin
    sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600
    
  1. 添加仓库密钥 — 获取并安装仓库密钥:
    sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/7fa2af80.pub
    
  1. 安装 CUDA 包 — 安装 CUDA Toolkit:
    sudo apt update
    sudo apt install cuda
    
  1. 验证安装 — 确认 CUDA 已成功安装:
    nvcc --version
    

5. 设置环境变量

5.1 配置 PATH 和 LD_LIBRARY_PATH

要使用 CUDA,需要正确配置环境变量。请按以下步骤操作:

  1. 编辑 .bashrc 文件
    nano ~/.bashrc
    
  1. 添加以下行
    export PATH=/usr/local/cuda/bin:$PATH
    export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
    
  1. 应用更改 — 保存后重新加载终端:
    source ~/.bashrc
    

6. 安装 cuDNN

6.1 什么是 cuDNN?

cuDNN(CUDA 深度神经网络库)是一个针对深度学习工作负载进行 GPU 加速优化的库。

6.2 下载 cuDNN

官方 NVIDIA 网站下载与已安装 CUDA 版本兼容的 cuDNN。
需要拥有 NVIDIA 账户才能下载。

6.3 安装步骤

  1. 解压压缩包 — 解压下载的 cuDNN 压缩文件:
    tar -xzvf cudnn-<version>.tgz
    
  1. 复制文件 — 将必要的文件复制到 CUDA 目录中:
    sudo cp cuda/include/cudnn*.h /usr/local/cuda/include
    sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64
    sudo chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*
    
  1. 验证安装 — 使用以下命令检查 cuDNN 版本:
    cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2
    

7. 验证安装

7.1 检查 CUDA 是否正常工作

运行以下命令以确认 CUDA 已正确安装:

nvcc --version

7.2 运行示例程序

执行 CUDA 示例程序以测试功能。

  1. 设置示例程序
    cuda-install-samples-<version>.run
    cd ~/NVIDIA_CUDA-<version>_Samples/1_Utilities/deviceQuery
    make
    
  1. 运行程序
    ./deviceQuery
    

如果输出显示 “PASS”,则说明安装成功。

8. 故障排除

8.1 常见问题及解决方案

  • 问题: CUDA 未被识别 解决方案: 重新检查环境变量并重启系统。
  • 问题: GPU 未被使用 解决方案: 尝试重新安装 NVIDIA 驱动。
  • 问题: CUDA 与软件不兼容 解决方案: 查看软件支持的 CUDA 版本并安装对应的版本。

9. 结论

本文详细演示了在 Ubuntu 环境下安装 CUDA 和 cuDNN 的完整步骤。
按照这些步骤操作,即可构建高性能的 GPU 计算环境。
如果您计划进行深度学习或科学计算,建议接下来配置 TensorFlow 或 PyTorch。

年収訴求