一、环境准备与系统检查

在开始深度学习开发环境搭建前，需完成基础系统配置和依赖项检查。首先确认系统版本为Ubuntu 21.04 LTS（或其他长期支持版本），建议使用全新安装的系统以避免软件冲突。

1.1 禁用开源显卡驱动

Ubuntu默认加载的nouveau开源驱动会与NVIDIA官方驱动冲突，需通过以下步骤禁用：

# 创建黑名单配置文件
sudo nano /etc/modprobe.d/blacklist-nouveau.conf
# 添加以下内容并保存
blacklist nouveau
options nouveau modeset=0
# 更新initramfs并重启
sudo update-initramfs -u
sudo reboot

重启后通过lsmod | grep nouveau命令验证是否生效，若无输出则表示禁用成功。

1.2 系统依赖项安装

构建深度学习环境需要基础开发工具链支持：

# 更新软件包索引
sudo apt update
# 安装编译工具和依赖库
sudo apt install -y build-essential \
                   cmake \
                   git \
                   wget \
                   libprotobuf-dev \
                   protobuf-compiler \
                   libgoogle-glog-dev \
                   libboost-all-dev \
                   libatlas-base-dev \
                   libhdf5-serial-dev \
                   libleveldb-dev \
                   liblmdb-dev \
                   libsnappy-dev \
                   libopencv-dev

建议使用apt list --installed | grep -E "build|cmake|git"验证安装结果，确保所有依赖项版本符合要求。

二、NVIDIA驱动安装与配置

2.1 驱动版本选择

根据显卡型号选择兼容驱动版本，可通过nvidia-smi命令查看当前系统识别情况（若已安装旧版驱动）。推荐从某显卡厂商官方网站获取最新稳定版驱动，或使用Ubuntu仓库的稳定版本：

# 查询可用驱动版本
ubuntu-drivers devices
# 自动安装推荐驱动
sudo ubuntu-drivers autoinstall

2.2 手动安装流程

对于特殊需求场景，可手动下载.run文件安装：

# 下载驱动（示例版本号）
wget https://us.download.nvidia.com/XFree86/Linux-x86_64/515.65.01/NVIDIA-Linux-x86_64-515.65.01.run
# 添加执行权限并安装
chmod +x NVIDIA-Linux-x86_64-*.run
sudo ./NVIDIA-Linux-x86_64-*.run --no-opengl-files

安装完成后运行nvidia-smi验证，输出应显示显卡信息及驱动版本。

2.3 持久化配置

为避免驱动在系统更新后失效，需创建配置文件：

sudo nano /etc/modprobe.d/nvidia-application-profiles.conf
# 添加以下内容
options nvidia "NVreg_OpenRmEnableUnsupportedGpus=1"
options nvidia-drm modeset=1

三、CUDA工具包部署

3.1 版本兼容性矩阵

CUDA版本	对应驱动最低版本	支持的cuDNN版本
11.7	450.80.02	8.0.x
11.8	450.80.02	8.2.x
12.0	470.57.02	8.4.x

3.2 安装流程

推荐使用网络仓库安装方式：

# 添加PPA仓库
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2104/x86_64/cuda-keyring_1.0-1_all.deb
sudo dpkg -i cuda-keyring_1.0-1_all.deb
# 安装指定版本
sudo apt install -y cuda-11-8

安装完成后配置环境变量：

echo 'export PATH=/usr/local/cuda-11.8/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc

3.3 验证安装

# 检查编译器版本
nvcc --version
# 运行设备查询示例
cd /usr/local/cuda-11.8/samples/1_Utilities/deviceQuery
make
./deviceQuery

输出应显示”Result = PASS”及显卡详细信息。

四、cuDNN加速库配置

4.1 下载与安装

从某托管仓库链接获取与CUDA版本匹配的cuDNN包（需注册账号），解压后执行：

# 解压到CUDA目录
tar -xzvf cudnn-linux-x86_64-8.2.4.15_cuda11-archive.tar.gz
sudo cp cudnn-*-archive/include/cudnn*.h /usr/local/cuda/include
sudo cp cudnn-*-archive/lib/libcudnn* /usr/local/cuda/lib64
sudo chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*

4.2 验证安装

# 检查库文件
ls -l /usr/local/cuda/lib64/libcudnn*
# 运行验证程序（需先编译CUDA示例）
cd /usr/local/cuda/samples/5_Simulations/nbody
make
./nbody -benchmark -numbodies=256000

五、OpenPose框架部署

5.1 源码编译

# 克隆源码仓库
git clone https://github.com/CMU-Perceptual-Computing-Lab/openpose.git
cd openpose
git submodule update --init --recursive
# 创建build目录并编译
mkdir build
cd build
cmake .. \
    -DCMAKE_BUILD_TYPE=Release \
    -DBUILD_PYTHON_SUPPORT=ON \
    -DUSE_CUDNN=ON \
    -DCUDA_ARCH_BIN="7.5"  # 根据显卡计算能力调整
make -j$(nproc)

5.2 运行测试

# 下载测试模型
cd ../models
bash get_models.sh
# 运行示例程序
cd ../build/examples/openpose
./openpose.bin --video examples/media/video.avi --display 0 --render_pose 0

成功运行后会在同目录生成JSON格式的输出文件。

六、常见问题解决方案

6.1 驱动安装失败

错误现象：ERROR: Unable to load the kernel module 'nvidia'
解决方案：
1. 检查Secure Boot是否禁用
2. 尝试添加--no-drm参数安装
3. 验证内核头文件是否安装：sudo apt install linux-headers-$(uname -r)

6.2 CUDA版本冲突

错误现象：nvcc: error: invalid version number in value '-arch=sm_75'
解决方案：
1. 使用update-alternatives --config cuda切换版本
2. 清理残留配置文件：sudo rm /etc/apt/sources.list.d/cuda*

6.3 OpenPose编译错误

错误现象：undefined reference to 'caffe::SetDevice()'
解决方案：
1. 确保CUDA和cuDNN版本匹配
2. 在CMake命令中添加-DCaffe_INCLUDE_DIRS=/path/to/caffe/include

七、环境优化建议

内存管理：在/etc/sysctl.conf中添加vm.swappiness=10降低交换分区使用率
电源管理：安装tlp工具优化显卡功耗：sudo apt install tlp && sudo tlp start
监控工具：推荐使用nvtop替代htop监控GPU使用情况
容器化部署：对于多项目环境，建议使用Docker容器隔离不同CUDA版本

通过以上步骤的系统化配置，开发者可在Ubuntu系统上构建稳定高效的深度学习开发环境。建议定期检查各组件更新日志，在非生产环境先行测试版本升级，确保开发环境的持续稳定性。

Ubuntu系统下深度学习开发环境搭建全攻略