2023.10.26

Genoa、Milan 和 Ice Lake 平台的 GPU 基准测试

分享：

在我们之前的部落格中，我们宣布 AEWIN SCB-1932C 伺服器已被验证为企业边缘的 NVIDIA 认证系统。今天我们将深入探讨不同 AEWIN 平台上的 GPU 基准测试。

系统配置
应用 AEWIN 高性能设备，SCB-1946C，SCB-1932C 和 SCB-1937C。

伺服器测试/基准
系统	SCB-1946C	SCB-1932C	SCB-1937C	Nvidia 基准测试
处理器	Dual AMD EPYC 9174F (Genoa)	Dual Intel Xeon Gold 5318S (冰湖)	Dual AMD EPYC 7543 (Milan)	Dual AMD EPYC 7003 (Milan)
Core	16	24	32	N/A
Freq	4.1 GHz	2.1 GHz	2.8 GHz	N/A
记忆体	1x 32GB	2x 32GB	1x 32GB	N/A
GPU	1x Nvidia A30	1x Nvidia A30	1x Nvidia A30	1x Nvidia A30
作业系统	Ubuntu 20.04.3 LTS	Ubuntu 20.04.3 LTS	Ubuntu 20.04.3 LTS	N/A
框架	TensorRT 8.6.1	TensorRT 8.6.1	TensorRT 8.6.1	TensorRT 8.6.1

GPU 状态监控器
为了准备，请在主机中编写一个 GPU 监控脚本 "monitor.sh" 以防止降频。

ALL_news_tech_blog_26A12_yLpOBqs2TA

输入状态刷新持续时间作为间隔。输入 "y" 以保存日志或 "n" 不保存日志。

ALL_news_tech_blog_26A12_xh7TfBUz6o

基准测试
从主机运行脚本 "benchmark.sh"。它会将您重定向到 GPU 加速容器。在容器中运行脚本 "benchmark.sh"。它会要求您选择 int8 模式或 fp16 模式进行测试。输入 1 以在 int8 模式下运行。

在主机上运行脚本 "benchmark.sh " 以开始测试。下面的图片显示了基准测试结果的示例。

ALL_news_tech_blog_26A12_7ATc9RXPUZ

对于基准测试结果，我们只考虑 GPU 计算的百分位数值。例如，上图中显示的百分位数值等于 8.88623。要计算任何 GPU 的性能（图像/秒），我们使用以下公式：1000/(百分位数/128)，其中 128 是当前测试的批次大小。因此，int8（图像/秒）相当于 14,405。

测试脚本
1. 容器中的 sh 脚本

#!/bin/bash
echo -e "进行 int8 测试，按 1；进行 fp16 测试，按 2 : "
read testmode
if [ "${testmode}" -eq 1 ]; then
/workspace/tensorrt/bin/trtexec –batch=128 –iterations=400 –workspace=1024 –percentile=99 –deploy=ResNet50_N2.prototxt –model=ResNet50_fp32.caffemodel –output=prob –int8
elif [ "${testmode}" -eq 2 ]; then
/workspace/tensorrt/bin/trtexec –batch=128 –iterations=400 –workspace=1024 –percentile=99 –deploy=ResNet50_N2.prototxt –model=ResNet50_fp32.caffemodel –output=prob –fp16
else
echo -e “input wrong !!!”
fi

2. 主机中的 sh 脚本

#!/bin/bash
docker run –gpus ‘”device=0″‘ -it –rm –name trt_2011 -w /workspace/tensorrt/data/resnet50/ trt:2011

3. 在容器中烧录脚本 burn.sh

#!/bin/bash
for((i=1;i>0;i++))
do
mpirun –allow-run-as-root -np 1 –mca btl ^openib python -u ./resnet.py –batch_size 128 –num_iter 28800 –precision fp16 –iter_unit batch
完成

4. 在主机中烧录脚本 burn.sh

#!/bin/bash
docker run –gpus ‘"device=0"‘ -it –rm –name tf_2011tf2 -w /workspace/nvidia-examples/cnn tf:2011tf2

5. 主机中的 GPU 监控脚本 "monitor.sh"

#!/bin/bash
#echo ” ” > ./gpu_log.txt
echo "请输入间隔（秒）："
read interval
echo "你想要保存日志文件吗？(y/n)"
read logflagfor((i=1;i>0;i++))
do
if [ "${logflag}" = "y" ]; then
echo -e "\n=====i : ${i}=====\n" > ./gpu_log_tmp.txt
nvidia-smi >> ./gpu_log_tmp.txt
sleep 1
nvidia-smi -q -d CLOCK | grep -v N/A | grep -v "Not Found" >> ./gpu_log_tmp.txt
cat ./gpu_log_tmp.txt
cat ./gpu_log_tmp.txt >> gpu_log.txt
sleep "${interval}"
elif [ "${logflag}" = "n" ]; then
echo -e “\n=====i : ${i}===== ”
nvidia-smi
sleep 1
nvidia-smi -q -d CLOCK | grep -v N/A | grep -v “Not Found”
sleep "${interval}"
else
输入错误！请输入 y 或 n。
fi
完成

摘要
根据基准测试结果，我们在包括 SCB-1946C（Genoa）、SCB-1932C（Ice Lake）和 SCB-1937C（Milan）在内的平台上验证了 A30。它们的结果与 Nvidia 基准相比，表现更佳或相似。

ALL_news_tech_blog_26A12_CsP1SAv3N6

平台范围从边缘 AI 设备到通用计算系统，再到高性能伺服器，客户可以选择最适合的设备，并配备每个应用所需的 GPU。联繫我们友好的销售团队，了解更多 AEWIN GPU 伺服器平台的资讯！

SCB-1932：2U 双 Ice Lake-SP PCIe 4.0 平台，具有短深度设计，4 个 PCIe Gen4 插槽加上双 FHFL GPU 插槽或 4 个 PCIe Gen4 NIC，以及 IPMI。
SCB-1933：2U Ice Lake-SP PCIe 4.0 平台，具有短深度设计，4 个 PCIe Gen4 插槽加上双 FHFL GPU 插槽或 4 个 PCIe Gen4 NIC，以及 IPMI。
SCB-1942：2U 双 Sapphire Rapids-SP PCIe 5.0/CXL 平台，具短深度设计，4 个 PCIe Gen5 插槽加上双 FHFL GPU 插槽或 4 个 PCIe Gen4 NIC，并具备 IPMI。
SCB-1943：2U Sapphire Rapids-SP PCIe 5.0/CXL 平台，具有短深度设计，4 个 PCIe Gen5 插槽加上双 FHFL GPU 插槽或 4 个 PCIe Gen5 NIC，以及 IPMI。
SCB-1946：2U 双 EPYC-9004 (Genoa/Bergamo) PCIe 5.0/CXL 平台，具短深度设计，4 个 PCIe Gen5 插槽加上双 FHFL GPU 插槽或 4 个 PCIe Gen4 NIC，并具备 IPMI。
SCB-1947：2U EPYC-8004（Siena）PCIe 5.0/CXL平台，具备短深度设计，8个PCIe Gen5插槽NIC、NVMe和IPMI。
BAS-6101A：2U 高密度边缘计算伺服器，搭载 AMD Bergamo/Genoa/Genoa-X 处理器，总共 8 个 PCIe 插槽（2 个双宽 FHFL PCIe Gen5 x16 或 4 个单宽 FHFL PCIe Gen5 x16，2 个单宽 FHHL PCIe Gen5 x16，2 个 HHHL PCIe Gen4 x8）+ 1 个 OCP 3.0 插槽用于网路介面卡和加速器。
BAS-6101B：2U高效能伺服器，搭载AMD Bergamo/Genoa/Genoa-X处理器，总共8个PCIe插槽（2个双宽FHFL PCIe Gen5 x16或4个单宽FHFL PCIe Gen5 x16，2个单宽FHHL PCIe Gen5 x16，2个HHHL PCIe Gen4 x8），用于网路介面卡和加速器。

Genoa、Milan 和 Ice Lake 平台的 GPU 基准测试

相关讯息

Rack-Scale AI Infrastructure: Maximizing Performance, Efficiency, and Scalability for the AI Era

Enhancing Network Resilience with AEWIN Gen4 LAN Bypass

Optimizing Thermal Design for High-Performance Network Appliances and Servers