From ec9ba2dbe17803807ded49727f4293b15eea4086 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E9=A9=AC=E6=B4=AA=E6=B0=91?= Date: Thu, 6 Jun 2024 16:02:41 +0800 Subject: [PATCH] add denglin toolkit case --- .../computation-BF16/denglin/GS40/README.md | 48 +++++++++++++++++ .../computation-BF16/denglin/GS40/main.sh | 1 + .../computation-FP16/denglin/GS40/README.md | 49 +++++++++++++++++ .../computation-FP16/denglin/GS40/main.sh | 1 + .../computation-FP32/denglin/GS40/README.md | 48 +++++++++++++++++ .../computation-FP32/denglin/GS40/main.sh | 1 + .../computation-INT8/denglin/GS40/README.md | 48 +++++++++++++++++ .../computation-INT8/denglin/GS40/main.sh | 1 + .../computation-TF32/denglin/GS40/README.md | 48 +++++++++++++++++ .../computation-TF32/denglin/GS40/main.sh | 1 + .../denglin/GS40/README.md | 51 ++++++++++++++++++ .../denglin/GS40/main.sh | 5 ++ .../denglin/GS40/README.md | 51 ++++++++++++++++++ .../denglin/GS40/main.sh | 5 ++ .../interconnect-h2d/denglin/GS40/README.md | 50 +++++++++++++++++ .../interconnect-h2d/denglin/GS40/main.sh | 1 + .../denglin/GS40/README.md | 47 ++++++++++++++++ .../denglin/GS40/main.sh | 1 + .../denglin/GS40/README.md | 53 +++++++++++++++++++ .../denglin/GS40/capacity.cu.cc | 51 ++++++++++++++++++ .../main_memory-capacity/denglin/GS40/main.sh | 3 ++ 21 files changed, 564 insertions(+) create mode 100644 base/toolkits/computation-BF16/denglin/GS40/README.md create mode 100644 base/toolkits/computation-BF16/denglin/GS40/main.sh create mode 100644 base/toolkits/computation-FP16/denglin/GS40/README.md create mode 100644 base/toolkits/computation-FP16/denglin/GS40/main.sh create mode 100644 base/toolkits/computation-FP32/denglin/GS40/README.md create mode 100644 base/toolkits/computation-FP32/denglin/GS40/main.sh create mode 100644 base/toolkits/computation-INT8/denglin/GS40/README.md create mode 100644 base/toolkits/computation-INT8/denglin/GS40/main.sh create mode 100644 base/toolkits/computation-TF32/denglin/GS40/README.md create mode 100644 base/toolkits/computation-TF32/denglin/GS40/main.sh create mode 100644 base/toolkits/interconnect-MPI_intraserver/denglin/GS40/README.md create mode 100644 base/toolkits/interconnect-MPI_intraserver/denglin/GS40/main.sh create mode 100644 base/toolkits/interconnect-P2P_intraserver/denglin/GS40/README.md create mode 100644 base/toolkits/interconnect-P2P_intraserver/denglin/GS40/main.sh create mode 100644 base/toolkits/interconnect-h2d/denglin/GS40/README.md create mode 100644 base/toolkits/interconnect-h2d/denglin/GS40/main.sh create mode 100644 base/toolkits/main_memory-bandwidth/denglin/GS40/README.md create mode 100644 base/toolkits/main_memory-bandwidth/denglin/GS40/main.sh create mode 100644 base/toolkits/main_memory-capacity/denglin/GS40/README.md create mode 100644 base/toolkits/main_memory-capacity/denglin/GS40/capacity.cu.cc create mode 100644 base/toolkits/main_memory-capacity/denglin/GS40/main.sh diff --git a/base/toolkits/computation-BF16/denglin/GS40/README.md b/base/toolkits/computation-BF16/denglin/GS40/README.md new file mode 100644 index 000000000..f21042182 --- /dev/null +++ b/base/toolkits/computation-BF16/denglin/GS40/README.md @@ -0,0 +1,48 @@ +# 参评AI芯片信息 + +* 厂商:登临 + +## 服务器1 + +- 产品名称:Goldwasser +- 产品型号:GS40 +- TDP:150W + +# 所用服务器配置 + +* 服务器数量:1 + +## 服务器1 + +* 单服务器内使用卡数:8 +* 服务器型号:浪潮NF5468-M7 +* 操作系统版本:Ubuntu 20.04.1 +* 操作系统内核:linux5.4.0-126 +* CPU:Intel(R) Xeon(R) Gold 6430 +* docker版本:26.1.2 +* 内存:778GiB +* 服务器间AI芯片直连规格及带宽:此评测样例无需服务器间通信 + +# 评测结果 + +## 核心评测结果 + +| 评测项 | BF16算力测试值 | BF16算力标定值 | 测试标定比例 | +| ---- | ----------- | ---------- | ------ | +| 评测结果 | 227.889TFLOPS | 256TFLOPS | 89% | + +## 能耗监控结果 + +| 监控项 | 系统平均功耗 | 系统最大功耗 | 系统功耗标准差 | 单机TDP | 单卡平均功耗 | 单卡最大功耗 | 单卡功耗标准差 | 单卡TDP | +| ---- | ------- | ------- | ------- | ----- | ------- | ------ | ------- | ----- | +| 监控结果 | - | - | 0.0W | / | - | 32W | / | 150W | + +## 其他重要监控结果 + +| 监控项 | 系统平均CPU占用 | 系统平均内存占用 | 单卡平均温度 | 单卡平均显存占用 | +| ---- | --------- | -------- | ------- | -------- | +| 监控结果 | / | / | 33°C | / | + +# 厂商测试工具原理说明 + +使用GEMM算子进行computation-bound的计算任务,从而测得实际BF16算力 diff --git a/base/toolkits/computation-BF16/denglin/GS40/main.sh b/base/toolkits/computation-BF16/denglin/GS40/main.sh new file mode 100644 index 000000000..bd50c6b6f --- /dev/null +++ b/base/toolkits/computation-BF16/denglin/GS40/main.sh @@ -0,0 +1 @@ +v2_tu_bench -i 1,1,64,64,256 -f 256,1,1,1,256 -d bf16 -n 1000 -s -D 0 \ No newline at end of file diff --git a/base/toolkits/computation-FP16/denglin/GS40/README.md b/base/toolkits/computation-FP16/denglin/GS40/README.md new file mode 100644 index 000000000..863045cb3 --- /dev/null +++ b/base/toolkits/computation-FP16/denglin/GS40/README.md @@ -0,0 +1,49 @@ +# 参评AI芯片信息 + +* 厂商:登临 + +## 服务器1 + +- 产品名称:Goldwasser +- 产品型号:GS40 +- TDP:150W + +# 所用服务器配置 + +* 服务器数量:1 + +## 服务器1 + +* 单服务器内使用卡数:8 +* 服务器型号:浪潮NF5468-M7 +* 操作系统版本:Ubuntu 20.04.1 +* 操作系统内核:linux5.4.0-126 +* CPU:Intel(R) Xeon(R) Gold 6430 +* docker版本:26.1.2 +* 内存:778GiB +* 服务器间AI芯片直连规格及带宽:此评测样例无需服务器间通信 + +# 评测结果 + + +## 核心评测结果 + +| 评测项 | FP16算力测试值 | FP16算力标定值 | 测试标定比例 | +| ---- | ----------- | ---------- | ------ | +| 评测结果 | 227.59TFLOPS | 256TFLOPS | 88.9% | + +## 能耗监控结果 + +| 监控项 | 系统平均功耗 | 系统最大功耗 | 系统功耗标准差 | 单机TDP | 单卡平均功耗 | 单卡最大功耗 | 单卡功耗标准差 | 单卡TDP | +| ---- | ------- | ------- | ------- | ----- | ------- | ------ | ------- | ----- | +| 监控结果 | / | / | / | / | 32W | 33W | 1W | 150W | + +## 其他重要监控结果 + +| 监控项 | 系统平均CPU占用 | 系统平均内存占用 | 单卡平均温度 | 单卡平均显存占用 | +| ---- | --------- | -------- | ------- | -------- | +| 监控结果 | / | / | 31°C | / | + +# 厂商测试工具原理说明 + +使用GEMM算子进行computation-bound的计算任务,从而测得实际FP16算力 diff --git a/base/toolkits/computation-FP16/denglin/GS40/main.sh b/base/toolkits/computation-FP16/denglin/GS40/main.sh new file mode 100644 index 000000000..c44f8649d --- /dev/null +++ b/base/toolkits/computation-FP16/denglin/GS40/main.sh @@ -0,0 +1 @@ +v2_tu_bench -i 1,1,64,64,256 -f 256,1,1,1,256 -d fp16 -n 1000 -s -D 0 \ No newline at end of file diff --git a/base/toolkits/computation-FP32/denglin/GS40/README.md b/base/toolkits/computation-FP32/denglin/GS40/README.md new file mode 100644 index 000000000..6181bbda7 --- /dev/null +++ b/base/toolkits/computation-FP32/denglin/GS40/README.md @@ -0,0 +1,48 @@ +# 参评AI芯片信息 + +* 厂商:登临 + +## 服务器1 + +- 产品名称:Goldwasser +- 产品型号:GS40 +- TDP:150W + +# 所用服务器配置 + +* 服务器数量:1 + +## 服务器1 + +* 单服务器内使用卡数:8 +* 服务器型号:浪潮NF5468-M7 +* 操作系统版本:Ubuntu 20.04.1 +* 操作系统内核:linux5.4.0-126 +* CPU:Intel(R) Xeon(R) Gold 6430 +* docker版本:26.1.2 +* 内存:778GiB +* 服务器间AI芯片直连规格及带宽:此评测样例无需服务器间通信 + +# 评测结果 + +## 核心评测结果 + +| 评测项 | FP32算力测试值 | FP32算力标定值 | 测试标定比例 | +| ---- | ----------- | ---------- | ------ | +| 评测结果 | 63.62TFLOPS | 64TFLOPS | 99.4% | + +## 能耗监控结果 + +| 监控项 | 系统平均功耗 | 系统最大功耗 | 系统功耗标准差 | 单机TDP | 单卡平均功耗 | 单卡最大功耗 | 单卡功耗标准差 | 单卡TDP | +| ---- | ------- | ------- | ------- | ----- | ------- | ------ | ------- | ----- | +| 监控结果 | / | / | 0.0W | / | 32W | 33W | 1W | 150W | + +## 其他重要监控结果 + +| 监控项 | 系统平均CPU占用 | 系统平均内存占用 | 单卡平均温度 | 单卡平均显存占用 | +| ---- | --------- | -------- | ------- | -------- | +| 监控结果 | / | / | 32°C | / | + +# 厂商测试工具原理说明 + +使用GEMM算子进行computation-bound的计算任务,从而测得实际FP32算力 \ No newline at end of file diff --git a/base/toolkits/computation-FP32/denglin/GS40/main.sh b/base/toolkits/computation-FP32/denglin/GS40/main.sh new file mode 100644 index 000000000..f7b5b8a51 --- /dev/null +++ b/base/toolkits/computation-FP32/denglin/GS40/main.sh @@ -0,0 +1 @@ +v2_tu_bench -i 1,1,64,64,256 -f 256,1,1,1,256 -d fp32 -n 1000 -s -D 0 \ No newline at end of file diff --git a/base/toolkits/computation-INT8/denglin/GS40/README.md b/base/toolkits/computation-INT8/denglin/GS40/README.md new file mode 100644 index 000000000..41f58119b --- /dev/null +++ b/base/toolkits/computation-INT8/denglin/GS40/README.md @@ -0,0 +1,48 @@ +# 参评AI芯片信息 + +* 厂商:登临 + +## 服务器1 + +- 产品名称:Goldwasser +- 产品型号:GS40 +- TDP:150W + +# 所用服务器配置 + +* 服务器数量:1 + +## 服务器1 + +* 单服务器内使用卡数:8 +* 服务器型号:浪潮NF5468-M7 +* 操作系统版本:Ubuntu 20.04.1 +* 操作系统内核:linux5.4.0-126 +* CPU:Intel(R) Xeon(R) Gold 6430 +* docker版本:26.1.2 +* 内存:778GiB +* 服务器间AI芯片直连规格及带宽:此评测样例无需服务器间通信 + +# 评测结果 + +## 核心评测结果 + +| 评测项 | INT8算力测试值 | INT8算力标定值 | 测试标定比例 | +| ---- | ----------- | ---------- | ------ | +| 评测结果 | 496.9TOPS | 512TOPS | 97.05% | + +## 能耗监控结果 + +| 监控项 | 系统平均功耗 | 系统最大功耗 | 系统功耗标准差 | 单机TDP | 单卡平均功耗 | 单卡最大功耗 | 单卡功耗标准差 | 单卡TDP | +| ---- | ------- | ------- | ------- | ----- | ------- | ------ | ------- | ----- | +| 监控结果 | / | / | / | / | 32W | 33W | 1W | 150W | + +## 其他重要监控结果 + +| 监控项 | 系统平均CPU占用 | 系统平均内存占用 | 单卡平均温度 | 单卡平均显存占用 | +| ---- | --------- | -------- | ------- | -------- | +| 监控结果 | / | / | 31°C | / | + +# 厂商测试工具原理说明 + +使用GEMM算子进行computation-bound的计算任务,从而测得实际INT8算力 \ No newline at end of file diff --git a/base/toolkits/computation-INT8/denglin/GS40/main.sh b/base/toolkits/computation-INT8/denglin/GS40/main.sh new file mode 100644 index 000000000..4afc4ff4e --- /dev/null +++ b/base/toolkits/computation-INT8/denglin/GS40/main.sh @@ -0,0 +1 @@ +v2_tu_bench -i 1,1,64,64,256 -f 256,1,1,1,256 -d int8 -n 1000 -s -D 0 \ No newline at end of file diff --git a/base/toolkits/computation-TF32/denglin/GS40/README.md b/base/toolkits/computation-TF32/denglin/GS40/README.md new file mode 100644 index 000000000..ab0a29981 --- /dev/null +++ b/base/toolkits/computation-TF32/denglin/GS40/README.md @@ -0,0 +1,48 @@ +# 参评AI芯片信息 + +* 厂商:登临 + +## 服务器1 + +- 产品名称:Goldwasser +- 产品型号:GS40 +- TDP:150W + +# 所用服务器配置 + +* 服务器数量:1 + +## 服务器1 + +* 单服务器内使用卡数:8 +* 服务器型号:浪潮NF5468-M7 +* 操作系统版本:Ubuntu 20.04.1 +* 操作系统内核:linux5.4.0-126 +* CPU:Intel(R) Xeon(R) Gold 6430 +* docker版本:26.1.2 +* 内存:778GiB +* 服务器间AI芯片直连规格及带宽:此评测样例无需服务器间通信 + +# 评测结果 + +## 核心评测结果 + +| 评测项 | TF32算力测试值 | TF32算力标定值 | 测试标定比例 | +| ---- | ----------- | --------- | ------ | +| 评测结果 | 103.53TFLOPS | 128TFLOPS | 80.4% | + +## 能耗监控结果 + +| 监控项 | 系统平均功耗 | 系统最大功耗 | 系统功耗标准差 | 单机TDP | 单卡平均功耗 | 单卡最大功耗 | 单卡功耗标准差 | 单卡TDP | +| ---- | ------- | ------- | ------- | ----- | ------- | ------ | ------- | ----- | +| 监控结果 | / | / | / | / | 31W | 32W | 1W | 150W | + +## 其他重要监控结果 + +| 监控项 | 系统平均CPU占用 | 系统平均内存占用 | 单卡平均温度 | 单卡平均显存占用 | +| ---- | --------- | -------- | ------- | -------- | +| 监控结果 | / | / | 32°C | / | + +# 厂商测试工具原理说明 + +使用GEMM算子进行computation-bound的计算任务,从而测得实际TF32算力 \ No newline at end of file diff --git a/base/toolkits/computation-TF32/denglin/GS40/main.sh b/base/toolkits/computation-TF32/denglin/GS40/main.sh new file mode 100644 index 000000000..1f652ff4b --- /dev/null +++ b/base/toolkits/computation-TF32/denglin/GS40/main.sh @@ -0,0 +1 @@ +v2_tu_bench -i 1,1,64,64,256 -f 256,1,1,1,256 -d tf32 -n 1000 -s -D 0 \ No newline at end of file diff --git a/base/toolkits/interconnect-MPI_intraserver/denglin/GS40/README.md b/base/toolkits/interconnect-MPI_intraserver/denglin/GS40/README.md new file mode 100644 index 000000000..5dedac2fc --- /dev/null +++ b/base/toolkits/interconnect-MPI_intraserver/denglin/GS40/README.md @@ -0,0 +1,51 @@ +# 参评AI芯片信息 + +* 厂商:登临 + +## 服务器1 + +- 产品名称:Goldwasser +- 产品型号:GS40 +- TDP:150W + +# 所用服务器配置 + +* 服务器数量:1 + +## 服务器1 + +* 单服务器内使用卡数:8 +* 服务器型号:浪潮NF5468-M7 +* 操作系统版本:Ubuntu 20.04.1 +* 操作系统内核:linux5.4.0-126 +* CPU:Intel(R) Xeon(R) Gold 6430 +* docker版本:26.1.2 +* 内存:778GiB +* 服务器间AI芯片直连规格及带宽:此评测样例无需服务器间通信 + +# 评测结果 + +## 核心评测结果 + +| 评测项 | 服务器内P2P互联带宽测试值 | 服务器P2P互联带宽标定值 | 测试标定比例 | +| ---- | ----------- | -------- | ------ | +| 评测结果 | 15.82GB/s | / | / | + +## 能耗监控结果 + +| 监控项 | 系统平均功耗 | 系统最大功耗 | 系统功耗标准差 | 单机TDP | 单卡平均功耗(2卡平均) | 单卡最大功耗(2卡最大) | 单卡功耗标准差(2卡最大) | 单卡TDP | +| ---- | ------- | ------- | ------- | ----- | ------- | ------ | ------- | ----- | +| 监控结果 | / | / | 0.0W | / | 31W | 32W | 1W | 150W | + +## 其他重要监控结果 + +| 监控项 | 系统平均CPU占用 | 系统平均内存占用 | 单卡平均温度(2卡平均) | 单卡平均显存占用(2卡平均) | +| ---- | --------- | -------- | ------- | -------- | +| 监控结果 | / | / | 31°C | / | + +# 厂商测试工具原理说明 + +使用cudaMemcpy,进行服务器内AI芯片通信操作,计算服务器AI芯片内P2P互联带宽 +先设置NCCL和MPI library path: +export LD_LIBRARY_PATH=nccl_library_path:mpi_library_path:$LD_LIBRARY_PATH +export PATH=mpi_bin_path:$PATH diff --git a/base/toolkits/interconnect-MPI_intraserver/denglin/GS40/main.sh b/base/toolkits/interconnect-MPI_intraserver/denglin/GS40/main.sh new file mode 100644 index 000000000..7e0fe2b8b --- /dev/null +++ b/base/toolkits/interconnect-MPI_intraserver/denglin/GS40/main.sh @@ -0,0 +1,5 @@ +export NCCL_P2P_LEVEL=SYS +export NCCL_PROTO=LL128 +export NCCL_ALGO=Ring + +mpirun --allow-run-as-root -np 8 all_reduce_perf -t 1 -g 1 -b 2M -e 32M -d float -o sum diff --git a/base/toolkits/interconnect-P2P_intraserver/denglin/GS40/README.md b/base/toolkits/interconnect-P2P_intraserver/denglin/GS40/README.md new file mode 100644 index 000000000..48fc11725 --- /dev/null +++ b/base/toolkits/interconnect-P2P_intraserver/denglin/GS40/README.md @@ -0,0 +1,51 @@ +# 参评AI芯片信息 + +* 厂商:登临 + +## 服务器1 + +- 产品名称:Goldwasser +- 产品型号:GS40 +- TDP:150W + +# 所用服务器配置 + +* 服务器数量:1 + +## 服务器1 + +* 单服务器内使用卡数:8 +* 服务器型号:浪潮NF5468-M7 +* 操作系统版本:Ubuntu 20.04.1 +* 操作系统内核:linux5.4.0-126 +* CPU:Intel(R) Xeon(R) Gold 6430 +* docker版本:26.1.2 +* 内存:778GiB +* 服务器间AI芯片直连规格及带宽:此评测样例无需服务器间通信 + +# 评测结果 + +## 核心评测结果 + +| 评测项 | 服务器内P2P互联带宽测试值 | 服务器P2P互联带宽标定值 | 测试标定比例 | +| ---- | ----------- | -------- | ------ | +| 评测结果 | 14.12GB/s | / | / | + +## 能耗监控结果 + +| 监控项 | 系统平均功耗 | 系统最大功耗 | 系统功耗标准差 | 单机TDP | 单卡平均功耗(2卡平均) | 单卡最大功耗(2卡最大) | 单卡功耗标准差(2卡最大) | 单卡TDP | +| ---- | ------- | ------- | ------- | ----- | ------- | ------ | ------- | ----- | +| 监控结果 | / | / | 0.0W | / | 31W | 32W | 1W | 150W | + +## 其他重要监控结果 + +| 监控项 | 系统平均CPU占用 | 系统平均内存占用 | 单卡平均温度(2卡平均) | 单卡平均显存占用(2卡平均) | +| ---- | --------- | -------- | ------- | -------- | +| 监控结果 | / | / | 31°C | / | + +# 厂商测试工具原理说明 + +使用cudaMemcpy,进行服务器内AI芯片通信操作,计算服务器AI芯片内P2P互联带宽 +先设置NCCL和MPI library path: +export LD_LIBRARY_PATH=nccl_library_path:mpi_library_path:$LD_LIBRARY_PATH +export PATH=mpi_bin_path:$PATH diff --git a/base/toolkits/interconnect-P2P_intraserver/denglin/GS40/main.sh b/base/toolkits/interconnect-P2P_intraserver/denglin/GS40/main.sh new file mode 100644 index 000000000..820a84bb8 --- /dev/null +++ b/base/toolkits/interconnect-P2P_intraserver/denglin/GS40/main.sh @@ -0,0 +1,5 @@ +export NCCL_P2P_LEVEL=SYS +export NCCL_PROTO=LL128 +export NCCL_ALGO=Ring + +all_reduce_perf -t 1 -g 8 -b 2M -e 32M -d float -o sum diff --git a/base/toolkits/interconnect-h2d/denglin/GS40/README.md b/base/toolkits/interconnect-h2d/denglin/GS40/README.md new file mode 100644 index 000000000..cfef0e3e0 --- /dev/null +++ b/base/toolkits/interconnect-h2d/denglin/GS40/README.md @@ -0,0 +1,50 @@ +# 参评AI芯片信息 + +* 厂商:登临 + +## 服务器1 + +- 产品名称:Goldwasser +- 产品型号:GS40 +- TDP:150W + +# 所用服务器配置 + +* 服务器数量:1 + +## 服务器1 + +* 单服务器内使用卡数:8 +* 服务器型号:浪潮NF5468-M7 +* 操作系统版本:Ubuntu 20.04.1 +* 操作系统内核:linux5.4.0-126 +* CPU:Intel(R) Xeon(R) Gold 6430 +* docker版本:26.1.2 +* 内存:778GiB +* 服务器间AI芯片直连规格及带宽:此评测样例无需服务器间通信 + +# 评测结果 + +## 核心评测结果 + +| 评测项 | CPU-芯片互联带宽测试值 | CPU-芯片互联带宽标定值 | 测试标定比例 | +| ---- | ----------- | -------- | ------ | +| 评测结果 | 31.7GB/s | | / | + +注: h2d/d2h带宽受到CPU、PCIE、内存等服务器内AI芯片以外的模块影响,无标定值 + +## 能耗监控结果 + +| 监控项 | 系统平均功耗 | 系统最大功耗 | 系统功耗标准差 | 单机TDP | 单卡平均功耗 | 单卡最大功耗 | 单卡功耗标准差 | 单卡TDP | +| ---- | ------- | ------- | ------- | ----- | ------- | ------ | ------- | ----- | +| 监控结果 | / | / | / | / | 31W | 32W | 1W | 150W | + +## 其他重要监控结果 + +| 监控项 | 系统平均CPU占用 | 系统平均内存占用 | 单卡平均温度 | 单卡平均显存占用 | +| ---- | --------- | -------- | ------- | -------- | +| 监控结果 | / | / | 32.0°C | / | + +# 厂商测试工具原理说明 + +使用cudaMemcpy,进行hosttodevice的CPU-AI芯片互联操作,计算CPU-AI芯片互联带宽 \ No newline at end of file diff --git a/base/toolkits/interconnect-h2d/denglin/GS40/main.sh b/base/toolkits/interconnect-h2d/denglin/GS40/main.sh new file mode 100644 index 000000000..7fdce6d67 --- /dev/null +++ b/base/toolkits/interconnect-h2d/denglin/GS40/main.sh @@ -0,0 +1 @@ +bandwidth_v2 -s 65536000 -t 20 -k h2d \ No newline at end of file diff --git a/base/toolkits/main_memory-bandwidth/denglin/GS40/README.md b/base/toolkits/main_memory-bandwidth/denglin/GS40/README.md new file mode 100644 index 000000000..a816697c9 --- /dev/null +++ b/base/toolkits/main_memory-bandwidth/denglin/GS40/README.md @@ -0,0 +1,47 @@ +# 参评AI芯片信息 + +* 厂商:登临 + +## 服务器1 + +- 产品名称:Goldwasser +- 产品型号:GS40 +- TDP:150W + +# 所用服务器配置 + +* 服务器数量:1 + +## 服务器1 + +* 单服务器内使用卡数:8 +* 服务器型号:浪潮NF5468-M7 +* 操作系统版本:Ubuntu 20.04.1 +* 操作系统内核:linux5.4.0-126 +* CPU:Intel(R) Xeon(R) Gold 6430 +* docker版本:26.1.2 +* 内存:778GiB +* 服务器间AI芯片直连规格及带宽:此评测样例无需服务器间通信 + +# 评测结果 + +## 核心评测结果 + +| 评测项 | 主存储带宽测试值 | 主存储带宽标定值 | 测试标定比例 | +| ---- | ----------- | -------- | ------ |65.985.5% | + +## 能耗监控结果 + +| 监控项 | 系统平均功耗 | 系统最大功耗 | 系统功耗标准差 | 单机TDP | 单卡平均功耗 | 单卡最大功耗 | 单卡功耗标准差 | 单卡TDP | +| ---- | ------- | ------- | ------- | ----- | ------- | ------ | ------- | ----- | +| 监控结果 | / | / | / | / | 31W | 32W | 1W | 150W | + +## 其他重要监控结果 + +| 监控项 | 系统平均CPU占用 | 系统平均内存占用 | 单卡平均温度 | 单卡平均显存占用 | +| ---- | --------- | -------- | ------- | -------- | +| 监控结果 | / | / | 31°C | / | + +# 厂商测试工具原理说明 + +使用cudaMemcpy,进行读+写AI芯片主存储操作,计算AI芯片主存储带宽 \ No newline at end of file diff --git a/base/toolkits/main_memory-bandwidth/denglin/GS40/main.sh b/base/toolkits/main_memory-bandwidth/denglin/GS40/main.sh new file mode 100644 index 000000000..99ac59646 --- /dev/null +++ b/base/toolkits/main_memory-bandwidth/denglin/GS40/main.sh @@ -0,0 +1 @@ +bandwidth_v2 -s 65536000 -t 20 -k d2d \ No newline at end of file diff --git a/base/toolkits/main_memory-capacity/denglin/GS40/README.md b/base/toolkits/main_memory-capacity/denglin/GS40/README.md new file mode 100644 index 000000000..a895cc2fd --- /dev/null +++ b/base/toolkits/main_memory-capacity/denglin/GS40/README.md @@ -0,0 +1,53 @@ +# 参评AI芯片信息 + +* 厂商:登临 + +## 服务器1 + +- 产品名称:Goldwasser +- 产品型号:GS40 +- TDP:150W + +# 所用服务器配置 + +* 服务器数量:1 + +## 服务器1 + +* 单服务器内使用卡数:8 +* 服务器型号:浪潮NF5468-M7 +* 操作系统版本:Ubuntu 20.04.1 +* 操作系统内核:linux5.4.0-126 +* CPU:Intel(R) Xeon(R) Gold 6430 +* docker版本:26.1.2 +* 内存:778GiB +* 服务器间AI芯片直连规格及带宽:此评测样例无需服务器间通信 + +# 评测结果 + +## 核心评测结果 + +| 评测项 | 主存储容量测试值 | 主存储容量标定值 | 测试标定比例 | +| ---- | ----------------- | -------- | ------ | +| 评测结果 | 45.12GiB(48.45GB) | 64GiB | 70.5% | + +## 能耗监控结果 + +此评测样例中无意义 + +## 其他重要监控结果 + +| 监控项 | 系统平均CPU占用 | 系统平均内存占用 | +| ---- | --------- | -------- | +| 监控结果 | / | / | + +# 厂商测试工具原理说明 + +通过按照一定规则不断尝试申请主存储(例如显存)来评测主存储容量 + +1. 初始化某个INITSIZE +2. 不断尝试cudaMalloc INITSIZE大小的主存储,直到无法申请 +3. 减小INITSIZE为当前的二分之一,重复执行第2步 +4. 重复执行第3步,直到INITSIZE为1MiB + +上述评测过程可以确保在评测结束时,已无法申请任何1MiB的主存储,以此评测主存储容量。 \ No newline at end of file diff --git a/base/toolkits/main_memory-capacity/denglin/GS40/capacity.cu.cc b/base/toolkits/main_memory-capacity/denglin/GS40/capacity.cu.cc new file mode 100644 index 000000000..c3818c94b --- /dev/null +++ b/base/toolkits/main_memory-capacity/denglin/GS40/capacity.cu.cc @@ -0,0 +1,51 @@ +// Copyright (c) 2024 BAAI. All rights reserved. +// +// Licensed under the Apache License, Version 2.0 (the "License") + + +#include +#include + +bool CHECK(cudaError_t call){ + const cudaError_t error = call; + return (error == cudaSuccess); +} + + +void test_gpu_memory_capacity() { + size_t initial_byte_size = 65536; + size_t current_byte_size = initial_byte_size; + size_t min_byte_size = 1; + size_t total_allocated = 0; + + printf("Init tensor size: %zu MiB...\n", initial_byte_size); + + while (current_byte_size >= min_byte_size) { + void* ptr = NULL; + bool allocation_failed = false; + + while (!allocation_failed) { + if (CHECK(cudaMalloc(&ptr, current_byte_size * 1024 * 1024))){ + total_allocated += current_byte_size; + printf("Allocated: %zu MiB\n", total_allocated); + } + else{ + printf("CUDA OOM at tensor size %zu MiB. Allocated:%zu MiB\n", current_byte_size, total_allocated); + allocation_failed = true; + } + } + + current_byte_size /= 2; + printf("Reduce tensor size to %zu MiB\n", current_byte_size); + } + + + printf("[FlagPerf Result]main_memory-capacity=%.2fGiB\n", total_allocated / (1024.0)); + printf("[FlagPerf Result]main_memory-capacity=%.2fGB\n", total_allocated * 1024.0 * 1024.0 / (1000.0 * 1000.0 * 1000.0)); + +} + +int main() { + test_gpu_memory_capacity(); + return 0; +} diff --git a/base/toolkits/main_memory-capacity/denglin/GS40/main.sh b/base/toolkits/main_memory-capacity/denglin/GS40/main.sh new file mode 100644 index 000000000..cd44e4da4 --- /dev/null +++ b/base/toolkits/main_memory-capacity/denglin/GS40/main.sh @@ -0,0 +1,3 @@ +dlcc capacity.cu.cc -o capacitytest +./capacitytest +sleep 300 \ No newline at end of file