FlagOpen · mhm0902 · Jun 6, 2024
diff --git a/base/toolkits/computation-BF16/denglin/GS40/README.md b/base/toolkits/computation-BF16/denglin/GS40/README.md
@@ -0,0 +1,48 @@
+# 参评AI芯片信息
+
+* 厂商：登临
+
+## 服务器1
+
+- 产品名称：Goldwasser
+- 产品型号：GS40
+- TDP：150W
+
+# 所用服务器配置
+
+* 服务器数量：1
+
+## 服务器1
+
+* 单服务器内使用卡数：8
+* 服务器型号：浪潮NF5468-M7
+* 操作系统版本：Ubuntu 20.04.1 
+* 操作系统内核：linux5.4.0-126
+* CPU：Intel(R) Xeon(R) Gold 6430
+* docker版本：26.1.2
+* 内存：778GiB
+* 服务器间AI芯片直连规格及带宽：此评测样例无需服务器间通信
+
+# 评测结果
+
+## 核心评测结果
+
+| 评测项  | BF16算力测试值   | BF16算力标定值  | 测试标定比例 |
+| ---- | ----------- | ---------- | ------ |
+| 评测结果 | 227.889TFLOPS | 256TFLOPS | 89% |
+
+## 能耗监控结果
+
+| 监控项  | 系统平均功耗  | 系统最大功耗  | 系统功耗标准差 | 单机TDP | 单卡平均功耗  | 单卡最大功耗 | 单卡功耗标准差 | 单卡TDP |
+| ---- | ------- | ------- | ------- | ----- | ------- | ------ | ------- | ----- |
+| 监控结果 | - | - | 0.0W   | /     | - | 32W | /   | 150W  |
+
+## 其他重要监控结果
+
+| 监控项  | 系统平均CPU占用 | 系统平均内存占用 | 单卡平均温度  | 单卡平均显存占用 |
+| ---- | --------- | -------- | ------- | -------- |
+| 监控结果 | /    | /   | 33°C | /   |
+
+# 厂商测试工具原理说明
+
+使用GEMM算子进行computation-bound的计算任务，从而测得实际BF16算力
diff --git a/base/toolkits/computation-BF16/denglin/GS40/main.sh b/base/toolkits/computation-BF16/denglin/GS40/main.sh
@@ -0,0 +1 @@
+v2_tu_bench -i 1,1,64,64,256 -f 256,1,1,1,256 -d bf16 -n 1000 -s -D 0
diff --git a/base/toolkits/computation-FP16/denglin/GS40/README.md b/base/toolkits/computation-FP16/denglin/GS40/README.md
@@ -0,0 +1,49 @@
+# 参评AI芯片信息
+
+* 厂商：登临
+
+## 服务器1
+
+- 产品名称：Goldwasser
+- 产品型号：GS40
+- TDP：150W
+
+# 所用服务器配置
+
+* 服务器数量：1
+
+## 服务器1
+
+* 单服务器内使用卡数：8
+* 服务器型号：浪潮NF5468-M7
+* 操作系统版本：Ubuntu 20.04.1 
+* 操作系统内核：linux5.4.0-126
+* CPU：Intel(R) Xeon(R) Gold 6430
+* docker版本：26.1.2
+* 内存：778GiB
+* 服务器间AI芯片直连规格及带宽：此评测样例无需服务器间通信
+
+# 评测结果
+
+
+## 核心评测结果
+
+| 评测项  | FP16算力测试值   | FP16算力标定值  | 测试标定比例 |
+| ---- | ----------- | ---------- | ------ |
+| 评测结果 | 227.59TFLOPS | 256TFLOPS | 88.9% |
+
+## 能耗监控结果
+
+| 监控项  | 系统平均功耗  | 系统最大功耗  | 系统功耗标准差 | 单机TDP | 单卡平均功耗  | 单卡最大功耗 | 单卡功耗标准差 | 单卡TDP |
+| ---- | ------- | ------- | ------- | ----- | ------- | ------ | ------- | ----- |
+| 监控结果 | / | / | /   | /     | 32W | 33W | 1W   | 150W  |
+
+## 其他重要监控结果
+
+| 监控项  | 系统平均CPU占用 | 系统平均内存占用 | 单卡平均温度  | 单卡平均显存占用 |
+| ---- | --------- | -------- | ------- | -------- |
+| 监控结果 | /    | /   | 31°C | /   |
+
+# 厂商测试工具原理说明
+
+使用GEMM算子进行computation-bound的计算任务，从而测得实际FP16算力
diff --git a/base/toolkits/computation-FP16/denglin/GS40/main.sh b/base/toolkits/computation-FP16/denglin/GS40/main.sh
@@ -0,0 +1 @@
+v2_tu_bench -i 1,1,64,64,256 -f 256,1,1,1,256 -d fp16 -n 1000 -s -D 0
diff --git a/base/toolkits/computation-FP32/denglin/GS40/README.md b/base/toolkits/computation-FP32/denglin/GS40/README.md
@@ -0,0 +1,48 @@
+# 参评AI芯片信息
+
+* 厂商：登临
+
+## 服务器1
+
+- 产品名称：Goldwasser
+- 产品型号：GS40
+- TDP：150W
+
+# 所用服务器配置
+
+* 服务器数量：1
+
+## 服务器1
+
+* 单服务器内使用卡数：8
+* 服务器型号：浪潮NF5468-M7
+* 操作系统版本：Ubuntu 20.04.1 
+* 操作系统内核：linux5.4.0-126
+* CPU：Intel(R) Xeon(R) Gold 6430
+* docker版本：26.1.2
+* 内存：778GiB
+* 服务器间AI芯片直连规格及带宽：此评测样例无需服务器间通信
+
+# 评测结果
+
+## 核心评测结果
+
+| 评测项  | FP32算力测试值   | FP32算力标定值  | 测试标定比例 |
+| ---- | ----------- | ---------- | ------ |
+| 评测结果 | 63.62TFLOPS | 64TFLOPS | 99.4% |
+
+## 能耗监控结果
+
+| 监控项  | 系统平均功耗  | 系统最大功耗  | 系统功耗标准差 | 单机TDP | 单卡平均功耗  | 单卡最大功耗 | 单卡功耗标准差 | 单卡TDP |
+| ---- | ------- | ------- | ------- | ----- | ------- | ------ | ------- | ----- |
+| 监控结果 | / | / | 0.0W   | /     | 32W | 33W | 1W   | 150W  |
+
+## 其他重要监控结果
+
+| 监控项  | 系统平均CPU占用 | 系统平均内存占用 | 单卡平均温度  | 单卡平均显存占用 |
+| ---- | --------- | -------- | ------- | -------- |
+| 监控结果 | /    | /   | 32°C | /   |
+
+# 厂商测试工具原理说明
+
+使用GEMM算子进行computation-bound的计算任务，从而测得实际FP32算力
diff --git a/base/toolkits/computation-FP32/denglin/GS40/main.sh b/base/toolkits/computation-FP32/denglin/GS40/main.sh
@@ -0,0 +1 @@
+v2_tu_bench -i 1,1,64,64,256 -f 256,1,1,1,256 -d fp32 -n 1000 -s -D 0
diff --git a/base/toolkits/computation-INT8/denglin/GS40/README.md b/base/toolkits/computation-INT8/denglin/GS40/README.md
@@ -0,0 +1,48 @@
+# 参评AI芯片信息
+
+* 厂商：登临
+
+## 服务器1
+
+- 产品名称：Goldwasser
+- 产品型号：GS40
+- TDP：150W
+
+# 所用服务器配置
+
+* 服务器数量：1
+
+## 服务器1
+
+* 单服务器内使用卡数：8
+* 服务器型号：浪潮NF5468-M7
+* 操作系统版本：Ubuntu 20.04.1 
+* 操作系统内核：linux5.4.0-126
+* CPU：Intel(R) Xeon(R) Gold 6430
+* docker版本：26.1.2
+* 内存：778GiB
+* 服务器间AI芯片直连规格及带宽：此评测样例无需服务器间通信
+
+# 评测结果
+
+## 核心评测结果
+
+| 评测项  | INT8算力测试值   | INT8算力标定值  | 测试标定比例 |
+| ---- | ----------- | ---------- | ------ |
+| 评测结果 | 496.9TOPS | 512TOPS | 97.05% |
+
+## 能耗监控结果
+
+| 监控项  | 系统平均功耗  | 系统最大功耗  | 系统功耗标准差 | 单机TDP | 单卡平均功耗  | 单卡最大功耗 | 单卡功耗标准差 | 单卡TDP |
+| ---- | ------- | ------- | ------- | ----- | ------- | ------ | ------- | ----- |
+| 监控结果 | / | / | /   | /     | 32W | 33W | 1W   | 150W  |
+
+## 其他重要监控结果
+
+| 监控项  | 系统平均CPU占用 | 系统平均内存占用 | 单卡平均温度  | 单卡平均显存占用 |
+| ---- | --------- | -------- | ------- | -------- |
+| 监控结果 | /    | /   | 31°C | /   |
+
+# 厂商测试工具原理说明
+
+使用GEMM算子进行computation-bound的计算任务，从而测得实际INT8算力
diff --git a/base/toolkits/computation-INT8/denglin/GS40/main.sh b/base/toolkits/computation-INT8/denglin/GS40/main.sh
@@ -0,0 +1 @@
+v2_tu_bench -i 1,1,64,64,256 -f 256,1,1,1,256 -d int8 -n 1000 -s -D 0
diff --git a/base/toolkits/computation-TF32/denglin/GS40/README.md b/base/toolkits/computation-TF32/denglin/GS40/README.md
@@ -0,0 +1,48 @@
+# 参评AI芯片信息
+
+* 厂商：登临
+
+## 服务器1
+
+- 产品名称：Goldwasser
+- 产品型号：GS40
+- TDP：150W
+
+# 所用服务器配置
+
+* 服务器数量：1
+
+## 服务器1
+
+* 单服务器内使用卡数：8
+* 服务器型号：浪潮NF5468-M7
+* 操作系统版本：Ubuntu 20.04.1 
+* 操作系统内核：linux5.4.0-126
+* CPU：Intel(R) Xeon(R) Gold 6430
+* docker版本：26.1.2
+* 内存：778GiB
+* 服务器间AI芯片直连规格及带宽：此评测样例无需服务器间通信
+
+# 评测结果
+
+## 核心评测结果
+
+| 评测项  | TF32算力测试值   | TF32算力标定值 | 测试标定比例 |
+| ---- | ----------- | --------- | ------ |
+| 评测结果 | 103.53TFLOPS | 128TFLOPS | 80.4%  |
+
+## 能耗监控结果
+
+| 监控项  | 系统平均功耗  | 系统最大功耗  | 系统功耗标准差 | 单机TDP | 单卡平均功耗  | 单卡最大功耗 | 单卡功耗标准差 | 单卡TDP |
+| ---- | ------- | ------- | ------- | ----- | ------- | ------ | ------- | ----- |
+| 监控结果 | / | / | /   | /     | 31W | 32W | 1W  | 150W  |
+
+## 其他重要监控结果
+
+| 监控项  | 系统平均CPU占用 | 系统平均内存占用 | 单卡平均温度  | 单卡平均显存占用 |
+| ---- | --------- | -------- | ------- | -------- |
+| 监控结果 | /    | /   | 32°C | /   |
+
+# 厂商测试工具原理说明
+
+使用GEMM算子进行computation-bound的计算任务，从而测得实际TF32算力
diff --git a/base/toolkits/computation-TF32/denglin/GS40/main.sh b/base/toolkits/computation-TF32/denglin/GS40/main.sh
@@ -0,0 +1 @@
+v2_tu_bench -i 1,1,64,64,256 -f 256,1,1,1,256 -d tf32 -n 1000 -s -D 0
diff --git a/base/toolkits/interconnect-MPI_intraserver/denglin/GS40/README.md b/base/toolkits/interconnect-MPI_intraserver/denglin/GS40/README.md
@@ -0,0 +1,51 @@
+# 参评AI芯片信息
+
+* 厂商：登临
+
+## 服务器1
+
+- 产品名称：Goldwasser
+- 产品型号：GS40
+- TDP：150W
+
+# 所用服务器配置
+
+* 服务器数量：1
+
+## 服务器1
+
+* 单服务器内使用卡数：8
+* 服务器型号：浪潮NF5468-M7
+* 操作系统版本：Ubuntu 20.04.1 
+* 操作系统内核：linux5.4.0-126
+* CPU：Intel(R) Xeon(R) Gold 6430
+* docker版本：26.1.2
+* 内存：778GiB
+* 服务器间AI芯片直连规格及带宽：此评测样例无需服务器间通信
+
+# 评测结果
+
+## 核心评测结果
+
+| 评测项  | 服务器内P2P互联带宽测试值    | 服务器P2P互联带宽标定值 | 测试标定比例 |
+| ---- | ----------- | -------- | ------ |
+| 评测结果 | 15.82GB/s | / | /  |
+
+## 能耗监控结果
+
+| 监控项  | 系统平均功耗  | 系统最大功耗  | 系统功耗标准差 | 单机TDP | 单卡平均功耗(2卡平均) | 单卡最大功耗(2卡最大) | 单卡功耗标准差(2卡最大) | 单卡TDP |
+| ---- | ------- | ------- | ------- | ----- | ------- | ------ | ------- | ----- |
+| 监控结果 | / | / | 0.0W    | /     | 31W | 32W | 1W   | 150W  |
+
+## 其他重要监控结果
+
+| 监控项  | 系统平均CPU占用 | 系统平均内存占用 | 单卡平均温度(2卡平均) | 单卡平均显存占用(2卡平均) |
+| ---- | --------- | -------- | ------- | -------- |
+| 监控结果 | /    | /   | 31°C | /  |
+
+# 厂商测试工具原理说明
+
+使用cudaMemcpy，进行服务器内AI芯片通信操作，计算服务器AI芯片内P2P互联带宽
+先设置NCCL和MPI library path:
+export LD_LIBRARY_PATH=nccl_library_path:mpi_library_path:$LD_LIBRARY_PATH
+export PATH=mpi_bin_path:$PATH
diff --git a/base/toolkits/interconnect-MPI_intraserver/denglin/GS40/main.sh b/base/toolkits/interconnect-MPI_intraserver/denglin/GS40/main.sh
@@ -0,0 +1,5 @@
+export NCCL_P2P_LEVEL=SYS
+export NCCL_PROTO=LL128
+export NCCL_ALGO=Ring
+
+mpirun --allow-run-as-root -np 8 all_reduce_perf -t 1 -g 1 -b 2M -e 32M -d float -o sum
diff --git a/base/toolkits/interconnect-P2P_intraserver/denglin/GS40/README.md b/base/toolkits/interconnect-P2P_intraserver/denglin/GS40/README.md
@@ -0,0 +1,51 @@
+# 参评AI芯片信息
+
+* 厂商：登临
+
+## 服务器1
+
+- 产品名称：Goldwasser
+- 产品型号：GS40
+- TDP：150W
+
+# 所用服务器配置
+
+* 服务器数量：1
+
+## 服务器1
+
+* 单服务器内使用卡数：8
+* 服务器型号：浪潮NF5468-M7
+* 操作系统版本：Ubuntu 20.04.1 
+* 操作系统内核：linux5.4.0-126
+* CPU：Intel(R) Xeon(R) Gold 6430
+* docker版本：26.1.2
+* 内存：778GiB
+* 服务器间AI芯片直连规格及带宽：此评测样例无需服务器间通信
+
+# 评测结果
+
+## 核心评测结果
+
+| 评测项  | 服务器内P2P互联带宽测试值    | 服务器P2P互联带宽标定值 | 测试标定比例 |
+| ---- | ----------- | -------- | ------ |
+| 评测结果 | 14.12GB/s | / | /  |
+
+## 能耗监控结果
+
+| 监控项  | 系统平均功耗  | 系统最大功耗  | 系统功耗标准差 | 单机TDP | 单卡平均功耗(2卡平均) | 单卡最大功耗(2卡最大) | 单卡功耗标准差(2卡最大) | 单卡TDP |
+| ---- | ------- | ------- | ------- | ----- | ------- | ------ | ------- | ----- |
+| 监控结果 | / | / | 0.0W    | /     | 31W | 32W | 1W   | 150W  |
+
+## 其他重要监控结果
+
+| 监控项  | 系统平均CPU占用 | 系统平均内存占用 | 单卡平均温度(2卡平均) | 单卡平均显存占用(2卡平均) |
+| ---- | --------- | -------- | ------- | -------- |
+| 监控结果 | /    | /   | 31°C | /  |
+
+# 厂商测试工具原理说明
+
+使用cudaMemcpy，进行服务器内AI芯片通信操作，计算服务器AI芯片内P2P互联带宽
+先设置NCCL和MPI library path:
+export LD_LIBRARY_PATH=nccl_library_path:mpi_library_path:$LD_LIBRARY_PATH
+export PATH=mpi_bin_path:$PATH
diff --git a/base/toolkits/interconnect-P2P_intraserver/denglin/GS40/main.sh b/base/toolkits/interconnect-P2P_intraserver/denglin/GS40/main.sh
@@ -0,0 +1,5 @@
+export NCCL_P2P_LEVEL=SYS
+export NCCL_PROTO=LL128
+export NCCL_ALGO=Ring
+
+all_reduce_perf -t 1 -g 8 -b 2M -e 32M -d float -o sum