nvidia-smi简介及常用指令 | GPU使用指南

一、引言

在深度学习、高性能计算（HPC）以及科学计算领域，GPU（图形处理器）已成为加速计算任务不可或缺的硬件。然而，随着GPU资源的广泛应用，如何高效监控和管理这些资源成为了一个重要议题。NVIDIA-SMI（NVIDIA System Management Interface）作为NVIDIA提供的官方工具，为开发者和管理员提供了强大的GPU状态监控与管理能力。本文将详细介绍nvidia-smi的基本功能、常用指令及其在GPU使用中的关键作用。

二、nvidia-smi简介

2.1 定义与功能

nvidia-smi是NVIDIA驱动包中的一个命令行工具，用于查询和配置NVIDIA GPU设备的状态。它能够提供关于GPU温度、利用率、内存使用、功耗等关键指标的信息，并支持对GPU进行基本的配置操作，如调整性能状态、重置GPU等。

2.2 安装与访问

nvidia-smi通常随NVIDIA驱动一同安装，无需额外配置。在Linux系统中，用户可以直接在终端输入nvidia-smi命令来访问其功能。在Windows系统中，则可以通过命令提示符（CMD）或PowerShell来执行。

三、常用指令详解

3.1 基本查询指令

指令：nvidia-smi

功能：显示所有NVIDIA GPU的基本状态信息，包括GPU编号、型号、驱动版本、温度、利用率、内存使用情况等。

示例输出：

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 450.80.02    Driver Version: 450.80.02    CUDA Version: 11.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla V100-SXM2...  On   | 00000000:00:1E.0 Off |                    0 |
| N/A   34C    P0    65W / 300W |      0MiB / 16160MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

解析：此输出展示了GPU 0的详细信息，包括型号（Tesla V100-SXM2）、温度（34C）、性能状态（P0）、功耗（65W/300W）、内存使用（0MiB/16160MiB）以及计算利用率（0%）。

3.2 实时监控指令

指令：nvidia-smi -l [秒数] 或 nvidia-smi -loop [秒数]

功能：以指定的时间间隔（秒数）持续刷新GPU状态信息，实现实时监控。

示例：nvidia-smi -l 1 将每秒刷新一次GPU状态。

应用场景：在长时间运行的计算任务中，实时监控GPU的利用率和温度，以便及时调整任务分配或散热策略。

3.3 查询特定GPU信息

指令：nvidia-smi -i [GPU编号]

功能：查询指定GPU编号的详细信息。

示例：nvidia-smi -i 0 将仅显示GPU 0的信息。

应用场景：在多GPU系统中，需要单独监控或管理某个GPU时，此指令非常有用。

3.4 调整GPU性能状态

指令：nvidia-smi -pm [0|1] -i [GPU编号]

功能：设置GPU的持久模式（Persistence Mode）。当设置为1时，GPU将保持活动状态，即使没有计算任务也在运行，这有助于减少启动延迟；设置为0则关闭持久模式。

示例：nvidia-smi -pm 1 -i 0 将GPU 0设置为持久模式。

注意事项：持久模式可能会增加功耗，因此应根据实际需求进行设置。

3.5 重置GPU

指令：nvidia-smi -r -i [GPU编号]

功能：重置指定的GPU设备，这可以解决一些因软件错误导致的GPU挂起问题。

示例：nvidia-smi -r -i 0 将重置GPU 0。

风险提示：重置GPU会导致当前在该GPU上运行的所有进程终止，因此应谨慎使用。

四、高级应用与技巧

4.1 结合脚本实现自动化监控

通过编写Shell脚本或Python脚本，可以定期调用nvidia-smi命令并解析其输出，实现GPU状态的自动化监控和报警。例如，可以设置一个脚本，当GPU温度超过阈值时发送邮件通知。

4.2 利用nvidia-smi进行资源调度

在多用户或多任务环境中，可以利用nvidia-smi查询GPU的利用率和内存使用情况，结合调度系统（如Slurm、Kubernetes）实现GPU资源的动态分配和回收。

4.3 调试与优化

通过分析nvidia-smi的输出，可以识别出GPU计算瓶颈，如内存不足、利用率低等问题，并据此进行代码优化或硬件升级。

五、结论

nvidia-smi作为NVIDIA GPU的官方管理工具，为开发者和管理员提供了强大的GPU状态监控与管理能力。通过熟练掌握其常用指令和高级应用技巧，可以显著提高GPU资源的使用效率和计算性能。希望本文的介绍能够帮助读者更好地利用nvidia-smi工具，优化GPU使用体验。

NVIDIA-SMI工具详解：GPU监控与管理的利器