Genoa、Milan 和 Ice Lake 平台的 GPU 基準測試
在我們之前的部落格中,我們宣布 AEWIN SCB-1932C 伺服器已被驗證為企業邊緣的 NVIDIA 認證系統。今天我們將深入探討不同 AEWIN 平台上的 GPU 基準測試。
系統配置
應用 AEWIN 高性能設備,SCB-1946C,SCB-1932C 和 SCB-1937C。
| 伺服器測試/基準 | ||||
| 系統 | SCB-1946C | SCB-1932C | SCB-1937C | Nvidia 基準測試 |
| 處理器 | Dual AMD EPYC 9174F
(Genoa) |
Dual Intel Xeon Gold 5318S
(冰湖) |
Dual AMD EPYC 7543
(Milan) |
Dual AMD EPYC 7003
(Milan) |
| Core | 16 | 24 | 32 | N/A |
| Freq | 4.1 GHz | 2.1 GHz | 2.8 GHz | N/A |
| 記憶體 | 1x 32GB | 2x 32GB | 1x 32GB | N/A |
| GPU | 1x Nvidia A30 | 1x Nvidia A30 | 1x Nvidia A30 | 1x Nvidia A30 |
| 作業系統 | Ubuntu 20.04.3 LTS | Ubuntu 20.04.3 LTS | Ubuntu 20.04.3 LTS | N/A |
| 框架 | TensorRT 8.6.1 | TensorRT 8.6.1 | TensorRT 8.6.1 | TensorRT 8.6.1 |
GPU 狀態監控器
為了準備,請在主機中編寫一個 GPU 監控腳本 "monitor.sh" 以防止降頻。

輸入狀態刷新持續時間作為間隔。輸入 "y" 以保存日誌或 "n" 不保存日誌。

基準測試
從主機運行腳本 "benchmark.sh"。它會將您重定向到 GPU 加速容器。在容器中運行腳本 "benchmark.sh"。它會要求您選擇 int8 模式或 fp16 模式進行測試。輸入 1 以在 int8 模式下運行。
在主機上運行腳本 "benchmark.sh " 以開始測試。下面的圖片顯示了基準測試結果的示例。

對於基準測試結果,我們只考慮 GPU 計算的百分位數值。例如,上圖中顯示的百分位數值等於 8.88623。要計算任何 GPU 的性能(圖像/秒),我們使用以下公式:1000/(百分位數/128),其中 128 是當前測試的批次大小。因此,int8(圖像/秒)相當於 14,405。
測試腳本
1. 容器中的 sh 腳本
| #!/bin/bash echo -e "進行 int8 測試,按 1;進行 fp16 測試,按 2 : " read testmode if [ "${testmode}" -eq 1 ]; then /workspace/tensorrt/bin/trtexec –batch=128 –iterations=400 –workspace=1024 –percentile=99 –deploy=ResNet50_N2.prototxt –model=ResNet50_fp32.caffemodel –output=prob –int8 elif [ "${testmode}" -eq 2 ]; then /workspace/tensorrt/bin/trtexec –batch=128 –iterations=400 –workspace=1024 –percentile=99 –deploy=ResNet50_N2.prototxt –model=ResNet50_fp32.caffemodel –output=prob –fp16 else echo -e “input wrong !!!” fi |
2. 主機中的 sh 腳本
| #!/bin/bash docker run –gpus ‘”device=0″‘ -it –rm –name trt_2011 -w /workspace/tensorrt/data/resnet50/ trt:2011 |
3. 在容器中燒錄腳本 burn.sh
| #!/bin/bash for((i=1;i>0;i++)) do mpirun –allow-run-as-root -np 1 –mca btl ^openib python -u ./resnet.py –batch_size 128 –num_iter 28800 –precision fp16 –iter_unit batch 完成 |
4. 在主機中燒錄腳本 burn.sh
| #!/bin/bash docker run –gpus ‘"device=0"‘ -it –rm –name tf_2011tf2 -w /workspace/nvidia-examples/cnn tf:2011tf2 |
5. 主機中的 GPU 監控腳本 "monitor.sh"
| #!/bin/bash #echo ” ” > ./gpu_log.txt echo "請輸入間隔(秒):" read interval echo "你想要保存日誌文件嗎?(y/n)" read logflagfor((i=1;i>0;i++)) do if [ "${logflag}" = "y" ]; then echo -e "\n=====i : ${i}=====\n" > ./gpu_log_tmp.txt nvidia-smi >> ./gpu_log_tmp.txt sleep 1 nvidia-smi -q -d CLOCK | grep -v N/A | grep -v "Not Found" >> ./gpu_log_tmp.txt cat ./gpu_log_tmp.txt cat ./gpu_log_tmp.txt >> gpu_log.txt sleep "${interval}" elif [ "${logflag}" = "n" ]; then echo -e “\n=====i : ${i}===== ” nvidia-smi sleep 1 nvidia-smi -q -d CLOCK | grep -v N/A | grep -v “Not Found” sleep "${interval}" else 輸入錯誤!請輸入 y 或 n。 fi 完成 |
摘要
根據基準測試結果,我們在包括 SCB-1946C(Genoa)、SCB-1932C(Ice Lake)和 SCB-1937C(Milan)在內的平台上驗證了 A30。它們的結果與 Nvidia 基準相比,表現更佳或相似。

平台範圍從邊緣 AI 設備到通用計算系統,再到高性能伺服器,客戶可以選擇最適合的設備,並配備每個應用所需的 GPU。聯繫我們友好的銷售團隊,了解更多 AEWIN GPU 伺服器平台的資訊!
- SCB-1932:2U 雙 Ice Lake-SP PCIe 4.0 平台,具有短深度設計,4 個 PCIe Gen4 插槽加上雙 FHFL GPU 插槽或 4 個 PCIe Gen4 NIC,以及 IPMI。
- SCB-1933:2U Ice Lake-SP PCIe 4.0 平台,具有短深度設計,4 個 PCIe Gen4 插槽加上雙 FHFL GPU 插槽或 4 個 PCIe Gen4 NIC,以及 IPMI。
- SCB-1942:2U 雙 Sapphire Rapids-SP PCIe 5.0/CXL 平台,具短深度設計,4 個 PCIe Gen5 插槽加上雙 FHFL GPU 插槽或 4 個 PCIe Gen4 NIC,並具備 IPMI。
- SCB-1943:2U Sapphire Rapids-SP PCIe 5.0/CXL 平台,具有短深度設計,4 個 PCIe Gen5 插槽加上雙 FHFL GPU 插槽或 4 個 PCIe Gen5 NIC,以及 IPMI。
- SCB-1946:2U 雙 EPYC-9004 (Genoa/Bergamo) PCIe 5.0/CXL 平台,具短深度設計,4 個 PCIe Gen5 插槽加上雙 FHFL GPU 插槽或 4 個 PCIe Gen4 NIC,並具備 IPMI。
- SCB-1947:2U EPYC-8004(Siena)PCIe 5.0/CXL平台,具備短深度設計,8個PCIe Gen5插槽NIC、NVMe和IPMI。
- BAS-6101A:2U 高密度邊緣計算伺服器,搭載 AMD Bergamo/Genoa/Genoa-X 處理器,總共 8 個 PCIe 插槽(2 個雙寬 FHFL PCIe Gen5 x16 或 4 個單寬 FHFL PCIe Gen5 x16,2 個單寬 FHHL PCIe Gen5 x16,2 個 HHHL PCIe Gen4 x8)+ 1 個 OCP 3.0 插槽用於網路介面卡和加速器。
- BAS-6101B:2U高效能伺服器,搭載AMD Bergamo/Genoa/Genoa-X處理器,總共8個PCIe插槽(2個雙寬FHFL PCIe Gen5 x16或4個單寬FHFL PCIe Gen5 x16,2個單寬FHHL PCIe Gen5 x16,2個HHHL PCIe Gen4 x8),用於網路介面卡和加速器。

