CentOS7离线部署：构建容器化GPU计算环境全指南

一、离线部署的必要性及环境准备

在工业互联网、AI训练等场景中，CentOS7因其稳定性仍被大量使用。离线部署GPU容器环境的核心需求源于三点：生产环境网络隔离、版本一致性控制、安全合规要求。例如某汽车制造企业的仿真集群需在无外网环境下运行，需提前构建完整的离线安装包。

环境检查要点

系统版本验证：

cat /etc/redhat-release  # 确认CentOS Linux release 7.x
uname -r                 # 推荐内核≥3.10.0-1160

GPU设备识别：

lspci | grep -i nvidia   # 确认设备型号（如Tesla V100）
nvidia-smi -L            # 验证驱动未安装时的报错

依赖包预装：

yum install -y epel-release
yum install -y wget make gcc kernel-devel dkms

二、离线驱动安装的完整流程

1. 驱动包准备

从NVIDIA官网下载对应版本的驱动（如NVIDIA-Linux-x86_64-525.85.12.run），需匹配：

显卡型号（如A100/RTX 3090）
内核版本（通过uname -r确认）
CUDA兼容性（参考NVIDIA CUDA Toolkit文档）

2. 黑名单机制配置

编辑/etc/modprobe.d/blacklist.conf，添加：

blacklist nouveau
options nouveau modeset=0

执行以下命令使配置生效：

echo "options nouveau modeset=0" > /etc/modprobe.d/nouveau-kms.conf
dracut --force

3. 离线安装步骤

# 切换至runlevel 3（避免图形界面干扰）
init 3
# 赋予驱动执行权限
chmod +x NVIDIA-Linux-x86_64-*.run
# 安装驱动（--no-opengl-files避免X11冲突）
./NVIDIA-Linux-x86_64-*.run --no-opengl-files --dkms
# 验证安装
nvidia-smi  # 应显示GPU状态及驱动版本
modinfo nvidia | grep version

三、容器运行时环境构建

1. Docker离线安装

从Docker官方仓库下载以下RPM包：

docker-ce-24.0.7-1.el7.x86_64.rpm
docker-ce-cli-24.0.7-1.el7.x86_64.rpm
containerd.io-1.6.26-3.1.el7.x86_64.rpm

安装命令：

yum localinstall -y *.rpm
systemctl enable --now docker

2. NVIDIA Container Toolkit部署

方案一：离线仓库构建

在有网络的环境下载工具包：

curl -s -L https://nvidia.github.io/nvidia-docker/centos7/nvidia-docker.repo | \
  sed 's#deb https://#file:///path/to/local/repo#g' > /etc/yum.repos.d/nvidia-docker.repo

使用createrepo工具构建本地仓库：

createrepo /path/to/local/repo
yum clean all && yum makecache

方案二：手动安装组件

下载以下组件并依次安装：

libnvidia-container1-1.13.3-1.x86_64.rpm
libnvidia-container-tools-1.13.3-1.x86_64.rpm
nvidia-container-toolkit-1.13.3-1.x86_64.rpm

安装后验证：

nvidia-ctk runtime config --runtime=docker
docker run --gpus all nvidia/cuda:12.2-base nvidia-smi

四、容器化GPU应用实践

1. 资源限制配置

在/etc/docker/daemon.json中添加：

{
  "default-runtime": "nvidia",
  "runtimes": {
    "nvidia": {
      "path": "/usr/bin/nvidia-container-runtime",
      "runtimeArgs": []
    }
  },
  "storage-driver": "overlay2"
}

2. 典型应用场景

深度学习训练

FROM nvidia/cuda:12.2-base
RUN apt-get update && apt-get install -y python3-pip
RUN pip install torch torchvision
WORKDIR /workspace
COPY train.py .
CMD ["python3", "train.py"]

3D渲染加速

docker run --gpus all -v /host/assets:/assets nvidia/cudagl:11.4.2-base \
  blender --background --python /assets/render.py

五、故障排查与优化

1. 常见问题处理

驱动加载失败：检查dmesg | grep nvidia是否有NVRM: failed to copy vbios to system memory错误，需在BIOS中启用Above 4G Decoding
容器GPU不可见：确认nvidia-container-cli list输出包含GPU UUID
性能下降：使用nvidia-smi topo -m检查NVLink连接状态

2. 性能调优建议

内核参数优化：

echo "options nvidia NVreg_RestrictProfilingToAuthenticatedUsers=0" > /etc/modprobe.d/nvidia.conf

容器资源限制：

# docker-compose.yml示例
resources:
  limits:
    nvidia.com/gpu: 1
    memory: 8Gi

六、离线环境维护策略

版本管理：使用yum-plugin-versionlock锁定关键组件版本
更新机制：建立定期同步流程，通过rsync从内网仓库更新软件包
监控体系：部署Prometheus+Grafana监控GPU利用率、温度等指标

通过上述完整流程，可在CentOS7离线环境中构建出支持容器化的GPU计算平台。实际部署中需特别注意驱动与内核版本的匹配性，建议通过自动化脚本（如Ansible）实现批量部署，降低人为操作风险。