Linux Ubuntu查看主要硬件配置,GPU压力测试

查看机器SN号

$ sudo dmidecode -t 1

查看服务器型号和主板型号:

$ sudo dmidecode |grep -A16 "System Information$"

System Information
        Manufacturer: Supermicro
        Product Name: SYS-7048GR-TR
        Version: 0123456789
        Serial Number: A16953527C10300
        UUID: 00000000-0000-0000-0000-AC1F6B80CBF6
        Wake-up Type: Power Switch
        SKU Number: Default string
        Family: Default string

Handle 0x0002, DMI type 2, 15 bytes
Base Board Information
        Manufacturer: Supermicro
        Product Name: X10DRG-Q
        Version: 1.10
        Serial Number: VM17CS019896
        Asset Tag: Default string
 

表示服务器型号: 超威SYS-7048GR-TR塔式服务器,主板型号:X10DRG-Q

查看CPU和超线程信息:

CPU型号
$ cat /proc/cpuinfo | grep name | uniq物理CPU个数
$ cat /proc/cpuinfo| grep "physical id"| sort| uniq | wc -l每个物理CPU的ID
$ cat /proc/cpuinfo | grep "physical id" | sort | uniq每个物理CPU的物理核数
$ cat /proc/cpuinfo| grep "cpu cores"| uniq逻辑总核数
$ cat /proc/cpuinfo| grep "processor"| wc -l

不开超线程:逻辑总核数 = 物理CPU个数 * 每个物理CPU的物理核数

开了超线程:逻辑总核数 > 物理CPU个数 * 每个物理CPU的物理核数

sort 排序 

uniq 当前结果中的唯一值。注意 00110011会认为唯一值有4个而不是两个:0 1 0 1。只有先排序成00001111之后,uniq才会输出正确的唯一值:0 1,共两个。

内存:

有几根内存条,总共内存多大:

$ sudo dmidecode|grep -A16 "Memory Device"|grep 'Size'| sort

结果中Size:后面的就是每一根物理内存条和容量,如:

      Size: 32 GB
        Size: 32 GB
        Size: 32 GB
        Size: 32 GB
代表4根内存条,共128GB。

查看内存频率:

sudo dmidecode|grep -A16 "Memory Device"|grep 'Speed'|sort

查看内存品牌:

$ sudo dmidecode --type 17 | grep Manufacturer | sort

硬盘:

查看每个硬盘和大小:

$ lsblk

查看单个硬盘的品牌:

$ sudo hdparm -I /dev/sda

Model Number中如果ST开头则是希捷。

区分固态和机械硬盘:

$ lsblk -d -o name,rota

rota为1表示可旋转,为机械HDD。为0可能是SSD。

显卡:

$ lspci | grep -i nvidia
$ lspci | grep -i vga
$ nvidia-smi

表示4张独立N卡,一张集成显卡。
02:00.0 VGA compatible controller: NVIDIA Corporation Device 1e02 (rev a1)
03:00.0 VGA compatible controller: NVIDIA Corporation Device 1e02 (rev a1)
06:00.0 VGA compatible controller: ASPEED Technology, Inc. ASPEED Graphics Family (rev 30)
82:00.0 VGA compatible controller: NVIDIA Corporation Device 1e02 (rev a1)
83:00.0 VGA compatible controller: NVIDIA Corporation Device 1e02 (rev a1)

或:

$ lspci -nn | grep VGA

(lspci -n/-nn:显示设备的vendor厂商号和device设备号;显示厂商等信息和名称。)

 没有装cuda的情况下,查看显卡型号:

打开网址:http://pci-ids.ucw.cz/mods/PC/10de?action=help?help=pci
在see also下面 jump 前面的输入框中输入上面命令输出的 数字+字母的 四位编码
查询即可比如1e02的结果:http://pci-ids.ucw.cz/mods/PC/10de/1e02

NVIDIA GPU压力测试:

$ git clone https://github.com/wilicc/gpu-burn
$ cd gpu-burn
$ make
# 压力测试60秒,不带参数默认应该是10秒
$ ./gpu_burn 60# 如果报错:./gpu_burn: error while loading shared libraries: libcublas.so.10: cannot open shared object file: No such file or directory。重新make一下
# 查看风扇转速:<服务器风扇满转一般10000RPM左右>
$ sudo ipmitool sdr

查看电源情况:

$ sudo dmidecode | grep Power

Published by

风君子

独自遨游何稽首 揭天掀地慰生平