GPU 监控指标¶
本页列出一些常用的 GPU 监控指标。
集群维度¶
指标名称 | 描述 |
---|---|
GPU 卡数 | 集群下所有的 GPU 卡数量 |
GPU 平均使用率 | 集群下所有 GPU 卡的平均算力使用率 |
GPU 平均显存使用率 | 集群下所有 GPU 卡的平均显存使用率 |
GPU 卡功率 | 集群下所有 GPU 卡的功率 |
GPU 卡温度 | 集群下所有 GPU 卡的温度 |
GPU 算力使用率细节 | 24 小时内,集群下所有 GPU 卡的使用率细节(包含 max、avg、current) |
GPU 显存使用量细节 | 24 小时内,集群下所有 GPU 卡的显存使用量细节(包含 min、max、avg、current) |
GPU 显存带宽使用率 | 表示内存带宽利用率。以 Nvidia GPU V100 为例,其最大内存带宽为 900 GB/sec,如果当前的内存带宽为 450 GB/sec,则内存带宽利用率为 50% |
节点维度¶
指标名称 | 描述 |
---|---|
GPU 模式 | 节点上 GPU 卡的使用模式,包含整卡模式、MIG 模式、vGPU 模式 |
GPU 物理卡数 | 节点上所有的 GPU 卡数量 |
GPU 虚拟卡数 | 节点上已经被创建出来的 vGPU 设备数量 |
GPU MIG 实例数 | 节点上已经被创建出来的 MIG 实例数 |
GPU 显存分配率 | 节点上所有 GPU 卡的显存分配率 |
GPU 算力平均使用率 | 节点上所有 GPU 卡的算力平均使用率 |
GPU 显存平均使用率 | 节点上所有 GPU 卡的平均显存使用率 |
GPU 驱动版本 | 节点上 GPU 卡驱动的版本信息 |
GPU 算力使用率细节 | 24 小时内,节点上每张 GPU 卡的算力使用率细节(包含 max、avg、current) |
GPU 显存使用量 | 24 小时内,节点上每张 GPU 卡的显存使用量细节(包含 min、max、avg、current) |
Pod 维度¶
分类 | 指标名称 | 描述 |
---|---|---|
应用概览 GPU 卡 - 算力 & 显存 | Pod GPU 算力使用率 | 当前 Pod 所使用到的 GPU 卡的算力使用率 |
Pod GPU 显存使用率 | 当前 Pod 所使用到的 GPU 卡的显存使用率 | |
Pod 显存使用量 | 当前 Pod 所使用到的 GPU 卡的显存使用量 | |
显存分配量 | 当前 Pod 所使用到的 GPU 卡的显存分配量 | |
Pod GPU 显存复制使用率 | 当前 Pod 所使用到的 GPU 卡的显存显存复制比率 | |
GPU 卡 - 引擎概览 | GPU 图形引擎活动百分比 | 表示在一个监控周期内,Graphics 或 Compute 引擎处于 Active 的时间占总的时间的比例 |
GPU 内存带宽利用率 | 表示内存带宽利用率(Memory BW Utilization)将数据发送到设备内存或从设备内存接收数据的周期分数。该值表示时间间隔内的平均值,而不是瞬时值。较高的值表示设备内存的利用率较高。 该值为 1(100%)表示在整个时间间隔内的每个周期执行一条 DRAM 指令(实际上,峰值约为 0.8 (80%) 是可实现的最大值)。 假设该值为 0.2(20%),表示 20% 的周期在时间间隔内读取或写入设备内存。 | |
Tensor 核心引擎使用率 | 表示在一个监控周期内,Tensor Core 管道(Pipe)处于 Active 时间占总时间的比例 | |
FP16 引擎使用率 | 表示在一个监控周期内,FP16 管道处于 Active 的时间占总的时间的比例 | |
FP32 引擎使用率 | 表示在一个监控周期内,FP32 管道处于 Active 的时间占总的时间的比例 | |
FP64 引擎使用率 | 表示在一个监控周期内,FP64 管道处于 Active 的时间占总的时间的比例 | |
GPU 解码使用率 | GPU 卡解码引擎比率 | |
GPU 编码使用率 | GPU 卡编码引擎比率 | |
GPU 卡 - 温度 & 功耗 | GPU 卡温度 | 集群下所有 GPU 卡的温度 |
GPU 卡功率 | 集群下所有 GPU 卡的功率 | |
GPU 卡 - 总耗能 | GPU 卡总共消耗的能量 | |
GPU 卡 - Clock | GPU 卡内存频率 | 内存频率 |
GPU 卡应用SM 时钟频率 | 应用的 SM 时钟频率 | |
GPU 卡应用内存频率 | 应用内存频率 | |
GPU 卡视频引擎频率 | 视频引擎频率 | |
GPU 卡降频原因 | 降频原因 | |
GPU 卡 - 其他细节 | PCIe 传输速率 | 节点 GPU 卡通过 PCIe 总线传输的数据速率 |
PCIe 接收速率 | 节点 GPU 卡通过 PCIe 总线接收的数据速率 |