本文詳細介紹nvidia-smi命令系列詳解;nvidia-smi簡稱NVSMI,提供監控GPU使用情況和更改GPU狀態的功能,是一個跨平臺工具,它支持所有標準的NVIDIA驅動程式 ...
1 NVIDIA-SMI介紹
nvidia-smi簡稱NVSMI,提供監控GPU使用情況和更改GPU狀態的功能,是一個跨平臺工具,它支持所有標準的NVIDIA驅動程式支持的Linux發行版以及從WindowsServer 2008 R2開始的64位的系統。該工具是N卡驅動附帶的,只要安裝好驅動後就會有它。
Windows下程式位置:C:\Program Files\NVIDIACorporation\NVSMI\nvidia-smi.exe。Linux下程式位置:/usr/bin/nvidia-smi,由於所在位置已經加入PATH路徑,可直接輸入nvidia-smi運行。
2 NVIDIA-SMI命令系列詳解
2.1 nvidia-smi
顯示所有GPU的當前信息狀態
顯示的表格中:
Fan: 風扇轉速(0%--100%),N/A表示沒有風扇
Temp: GPU溫度(GPU溫度過高會導致GPU頻率下降)
Perf: 性能狀態,從P0(最大性能)到P12(最小性能)
Pwr: GPU功耗
Persistence-M: 持續模式的狀態(持續模式耗能大,但在新的GPU應用啟動時花費時間更少)
Bus-Id: GPU匯流排,domain:bus:device.function
Disp.A: Display Active,表示GPU的顯示是否初始化
Memory-Usage:顯存使用率
Volatile GPU-Util:GPU使用率
ECC: 是否開啟錯誤檢查和糾正技術,0/DISABLED, 1/ENABLED
Compute M.: 計算模式,0/DEFAULT,1/EXCLUSIVE_PROCESS,2/PROHIBITED
附加選項:
nvidia-smi –i xxx
指定某個GPU
nvidia-smi –l xxx
動態刷新信息(預設5s刷新一次),按Ctrl+C停止,可指定刷新頻率,以秒為單位
nvidia-smi –f xxx
將查詢的信息輸出到具體的文件中,不在終端顯示
2.2 nvidia-smi -q
查詢所有GPU的當前詳細信息
附加選項:
nvidia-smi –q –u
顯示單元而不是GPU的屬性
nvidia-smi –q –i xxx
指定具體的GPU或unit信息
nvidia-smi –q –f xxx
將查詢的信息輸出到具體的文件中,不在終端顯示
nvidia-smi –q –x
將查詢的信息以xml的形式輸出
nvidia-smi -q –d xxx
指定顯示GPU卡某些信息,xxx參數可以為MEMORY, UTILIZATION, ECC, TEMPERATURE, POWER,CLOCK, COMPUTE, PIDS, PERFORMANCE, SUPPORTED_CLOCKS, PAGE_RETIREMENT,ACCOUNTING
nvidia-smi –q –l xxx
動態刷新信息,按Ctrl+C停止,可指定刷新頻率,以秒為單位
nvidia-smi --query-gpu=gpu_name,gpu_bus_id,vbios_version--format=csv
選擇性查詢選項,可以指定顯示的屬性選項
可查看的屬性有:timestamp,driver_version,pci.bus,pcie.link.width.current等。(可查看nvidia-smi--help-query–gpu來查看有哪些屬性)
2.3 設備修改選項
可以手動設置GPU卡設備的狀態選項
nvidia-smi –pm 0/1
設置持久模式:0/DISABLED,1/ENABLED
nvidia-smi –e 0/1
切換ECC支持:0/DISABLED, 1/ENABLED
nvidia-smi –p 0/1
重置ECC錯誤計數:0/VOLATILE, 1/AGGREGATE
nvidia-smi –c
設置計算應用模式:0/DEFAULT,1/EXCLUSIVE_PROCESS,2/PROHIBITED
nvidia-smi –r
GPU複位
nvidia-smi –vm
設置GPU虛擬化模式
nvidia-smi –ac xxx,xxx
設置GPU運行的工作頻率。e.g. nvidia-smi –ac2000,800
nvidia-smi –rac
將時鐘頻率重置為預設值
nvidia-smi –acp 0/1
切換-ac和-rac的許可權要求,0/UNRESTRICTED, 1/RESTRICTED
nvidia-smi –pl
指定最大電源管理限制(瓦特)
nvidia-smi –am 0/1
啟用或禁用計數模式,0/DISABLED,1/ENABLED
nvidia-smi –caa
清除緩衝區中的所有已記錄PID,0/DISABLED,1/ENABLED
2.4 nvidia-smi dmon
設備監控命令,以滾動條形式顯示GPU設備統計信息。
GPU統計信息以一行的滾動格式顯示,要監控的指標可以基於終端視窗的寬度進行調整。 監控最多4個GPU,如果沒有指定任何GPU,則預設監控GPU0-GPU3(GPU索引從0開始)。
附加選項:
nvidia-smi dmon –i xxx
用逗號分隔GPU索引,PCI匯流排ID或UUID
nvidia-smi dmon –d xxx
指定刷新時間(預設為1秒)
nvidia-smi dmon –c xxx
顯示指定數目的統計信息並退出
nvidia-smi dmon –s xxx
指定顯示哪些監控指標(預設為puc),其中:
p:電源使用情況和溫度(pwr:功耗,temp:溫度)
u:GPU使用率(sm:流處理器,mem:顯存,enc:編碼資源,dec:解碼資源)
c:GPU處理器和GPU記憶體時鐘頻率(mclk:顯存頻率,pclk:處理器頻率)
v:電源和熱力異常
m:FB記憶體和Bar1記憶體
e:ECC錯誤和PCIe重顯錯誤個數
t:PCIe讀寫帶寬
nvidia-smi dmon –o D/T
指定顯示的時間格式D:YYYYMMDD,THH:MM:SS
nvidia-smi dmon –f xxx
將查詢的信息輸出到具體的文件中,不在終端顯示
2.5 nvidia-smi pmon
進程監控命令,以滾動條形式顯示GPU進程狀態信息。
GPU進程統計信息以一行的滾動格式顯示,此工具列出了GPU所有進程的統計信息。要監控的指標可以基於終端視窗的寬度進行調整。 監控最多4個GPU,如果沒有指定任何GPU,則預設監控GPU0-GPU3(GPU索引從0開始)。
附加選項:
nvidia-smi pmon –i xxx
用逗號分隔GPU索引,PCI匯流排ID或UUID
nvidia-smi pmon –d xxx
指定刷新時間(預設為1秒,最大為10秒)
nvidia-smi pmon –c xxx
顯示指定數目的統計信息並退出
nvidia-smi pmon –s xxx
指定顯示哪些監控指標(預設為u),其中:
u:GPU使用率
m:FB記憶體使用情況
nvidia-smi pmon –o D/T
指定顯示的時間格式D:YYYYMMDD,THH:MM:SS
nvidia-smi pmon –f xxx
將查詢的信息輸出到具體的文件中,不在終端顯示
原文:https://blog.csdn.net/handsome_bear/article/details/80903477