2023.10.26

Genoa、Milan 和 Ice Lake 平台的 GPU 基準測試

分享：

在我們之前的部落格中，我們宣布 AEWIN SCB-1932C 伺服器已被驗證為企業邊緣的 NVIDIA 認證系統。今天我們將深入探討不同 AEWIN 平台上的 GPU 基準測試。

系統配置
應用 AEWIN 高性能設備，SCB-1946C，SCB-1932C 和 SCB-1937C。

伺服器測試/基準
系統	SCB-1946C	SCB-1932C	SCB-1937C	Nvidia 基準測試
處理器	Dual AMD EPYC 9174F (Genoa)	Dual Intel Xeon Gold 5318S (冰湖)	Dual AMD EPYC 7543 (Milan)	Dual AMD EPYC 7003 (Milan)
Core	16	24	32	N/A
Freq	4.1 GHz	2.1 GHz	2.8 GHz	N/A
記憶體	1x 32GB	2x 32GB	1x 32GB	N/A
GPU	1x Nvidia A30	1x Nvidia A30	1x Nvidia A30	1x Nvidia A30
作業系統	Ubuntu 20.04.3 LTS	Ubuntu 20.04.3 LTS	Ubuntu 20.04.3 LTS	N/A
框架	TensorRT 8.6.1	TensorRT 8.6.1	TensorRT 8.6.1	TensorRT 8.6.1

GPU 狀態監控器
為了準備，請在主機中編寫一個 GPU 監控腳本 "monitor.sh" 以防止降頻。

ALL_news_tech_blog_26A12_yLpOBqs2TA

輸入狀態刷新持續時間作為間隔。輸入 "y" 以保存日誌或 "n" 不保存日誌。

ALL_news_tech_blog_26A12_xh7TfBUz6o

基準測試
從主機運行腳本 "benchmark.sh"。它會將您重定向到 GPU 加速容器。在容器中運行腳本 "benchmark.sh"。它會要求您選擇 int8 模式或 fp16 模式進行測試。輸入 1 以在 int8 模式下運行。

在主機上運行腳本 "benchmark.sh " 以開始測試。下面的圖片顯示了基準測試結果的示例。

ALL_news_tech_blog_26A12_7ATc9RXPUZ

對於基準測試結果，我們只考慮 GPU 計算的百分位數值。例如，上圖中顯示的百分位數值等於 8.88623。要計算任何 GPU 的性能（圖像/秒），我們使用以下公式：1000/(百分位數/128)，其中 128 是當前測試的批次大小。因此，int8（圖像/秒）相當於 14,405。

測試腳本
1. 容器中的 sh 腳本

#!/bin/bash
echo -e "進行 int8 測試，按 1；進行 fp16 測試，按 2 : "
read testmode
if [ "${testmode}" -eq 1 ]; then
/workspace/tensorrt/bin/trtexec –batch=128 –iterations=400 –workspace=1024 –percentile=99 –deploy=ResNet50_N2.prototxt –model=ResNet50_fp32.caffemodel –output=prob –int8
elif [ "${testmode}" -eq 2 ]; then
/workspace/tensorrt/bin/trtexec –batch=128 –iterations=400 –workspace=1024 –percentile=99 –deploy=ResNet50_N2.prototxt –model=ResNet50_fp32.caffemodel –output=prob –fp16
else
echo -e “input wrong !!!”
fi

2. 主機中的 sh 腳本

#!/bin/bash
docker run –gpus ‘”device=0″‘ -it –rm –name trt_2011 -w /workspace/tensorrt/data/resnet50/ trt:2011

3. 在容器中燒錄腳本 burn.sh

#!/bin/bash
for((i=1;i>0;i++))
do
mpirun –allow-run-as-root -np 1 –mca btl ^openib python -u ./resnet.py –batch_size 128 –num_iter 28800 –precision fp16 –iter_unit batch
完成

4. 在主機中燒錄腳本 burn.sh

#!/bin/bash
docker run –gpus ‘"device=0"‘ -it –rm –name tf_2011tf2 -w /workspace/nvidia-examples/cnn tf:2011tf2

5. 主機中的 GPU 監控腳本 "monitor.sh"

#!/bin/bash
#echo ” ” > ./gpu_log.txt
echo "請輸入間隔（秒）："
read interval
echo "你想要保存日誌文件嗎？(y/n)"
read logflagfor((i=1;i>0;i++))
do
if [ "${logflag}" = "y" ]; then
echo -e "\n=====i : ${i}=====\n" > ./gpu_log_tmp.txt
nvidia-smi >> ./gpu_log_tmp.txt
sleep 1
nvidia-smi -q -d CLOCK | grep -v N/A | grep -v "Not Found" >> ./gpu_log_tmp.txt
cat ./gpu_log_tmp.txt
cat ./gpu_log_tmp.txt >> gpu_log.txt
sleep "${interval}"
elif [ "${logflag}" = "n" ]; then
echo -e “\n=====i : ${i}===== ”
nvidia-smi
sleep 1
nvidia-smi -q -d CLOCK | grep -v N/A | grep -v “Not Found”
sleep "${interval}"
else
輸入錯誤！請輸入 y 或 n。
fi
完成

摘要
根據基準測試結果，我們在包括 SCB-1946C（Genoa）、SCB-1932C（Ice Lake）和 SCB-1937C（Milan）在內的平台上驗證了 A30。它們的結果與 Nvidia 基準相比，表現更佳或相似。

ALL_news_tech_blog_26A12_CsP1SAv3N6

平台範圍從邊緣 AI 設備到通用計算系統，再到高性能伺服器，客戶可以選擇最適合的設備，並配備每個應用所需的 GPU。聯繫我們友好的銷售團隊，了解更多 AEWIN GPU 伺服器平台的資訊！

SCB-1932：2U 雙 Ice Lake-SP PCIe 4.0 平台，具有短深度設計，4 個 PCIe Gen4 插槽加上雙 FHFL GPU 插槽或 4 個 PCIe Gen4 NIC，以及 IPMI。
SCB-1933：2U Ice Lake-SP PCIe 4.0 平台，具有短深度設計，4 個 PCIe Gen4 插槽加上雙 FHFL GPU 插槽或 4 個 PCIe Gen4 NIC，以及 IPMI。
SCB-1942：2U 雙 Sapphire Rapids-SP PCIe 5.0/CXL 平台，具短深度設計，4 個 PCIe Gen5 插槽加上雙 FHFL GPU 插槽或 4 個 PCIe Gen4 NIC，並具備 IPMI。
SCB-1943：2U Sapphire Rapids-SP PCIe 5.0/CXL 平台，具有短深度設計，4 個 PCIe Gen5 插槽加上雙 FHFL GPU 插槽或 4 個 PCIe Gen5 NIC，以及 IPMI。
SCB-1946：2U 雙 EPYC-9004 (Genoa/Bergamo) PCIe 5.0/CXL 平台，具短深度設計，4 個 PCIe Gen5 插槽加上雙 FHFL GPU 插槽或 4 個 PCIe Gen4 NIC，並具備 IPMI。
SCB-1947：2U EPYC-8004（Siena）PCIe 5.0/CXL平台，具備短深度設計，8個PCIe Gen5插槽NIC、NVMe和IPMI。
BAS-6101A：2U 高密度邊緣計算伺服器，搭載 AMD Bergamo/Genoa/Genoa-X 處理器，總共 8 個 PCIe 插槽（2 個雙寬 FHFL PCIe Gen5 x16 或 4 個單寬 FHFL PCIe Gen5 x16，2 個單寬 FHHL PCIe Gen5 x16，2 個 HHHL PCIe Gen4 x8）+ 1 個 OCP 3.0 插槽用於網路介面卡和加速器。
BAS-6101B：2U高效能伺服器，搭載AMD Bergamo/Genoa/Genoa-X處理器，總共8個PCIe插槽（2個雙寬FHFL PCIe Gen5 x16或4個單寬FHFL PCIe Gen5 x16，2個單寬FHHL PCIe Gen5 x16，2個HHHL PCIe Gen4 x8），用於網路介面卡和加速器。

Genoa、Milan 和 Ice Lake 平台的 GPU 基準測試

相關訊息

Rack-Scale AI Infrastructure: Maximizing Performance, Efficiency, and Scalability for the AI Era

Enhancing Network Resilience with AEWIN Gen4 LAN Bypass

Optimizing Thermal Design for High-Performance Network Appliances and Servers