Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

add denglin toolkit case #565

Open
wants to merge 1 commit into
base: main
Choose a base branch
from
Open
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
48 changes: 48 additions & 0 deletions base/toolkits/computation-BF16/denglin/GS40/README.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,48 @@
# 参评AI芯片信息

* 厂商:登临

## 服务器1

- 产品名称:Goldwasser
- 产品型号:GS40
- TDP:150W

# 所用服务器配置

* 服务器数量:1

## 服务器1

* 单服务器内使用卡数:8
* 服务器型号:浪潮NF5468-M7
* 操作系统版本:Ubuntu 20.04.1
* 操作系统内核:linux5.4.0-126
* CPU:Intel(R) Xeon(R) Gold 6430
* docker版本:26.1.2
* 内存:778GiB
* 服务器间AI芯片直连规格及带宽:此评测样例无需服务器间通信

# 评测结果

## 核心评测结果

| 评测项 | BF16算力测试值 | BF16算力标定值 | 测试标定比例 |
| ---- | ----------- | ---------- | ------ |
| 评测结果 | 227.889TFLOPS | 256TFLOPS | 89% |

## 能耗监控结果

| 监控项 | 系统平均功耗 | 系统最大功耗 | 系统功耗标准差 | 单机TDP | 单卡平均功耗 | 单卡最大功耗 | 单卡功耗标准差 | 单卡TDP |
| ---- | ------- | ------- | ------- | ----- | ------- | ------ | ------- | ----- |
| 监控结果 | - | - | 0.0W | / | - | 32W | / | 150W |

## 其他重要监控结果

| 监控项 | 系统平均CPU占用 | 系统平均内存占用 | 单卡平均温度 | 单卡平均显存占用 |
| ---- | --------- | -------- | ------- | -------- |
| 监控结果 | / | / | 33°C | / |

# 厂商测试工具原理说明

使用GEMM算子进行computation-bound的计算任务,从而测得实际BF16算力
1 change: 1 addition & 0 deletions base/toolkits/computation-BF16/denglin/GS40/main.sh
Original file line number Diff line number Diff line change
@@ -0,0 +1 @@
v2_tu_bench -i 1,1,64,64,256 -f 256,1,1,1,256 -d bf16 -n 1000 -s -D 0
49 changes: 49 additions & 0 deletions base/toolkits/computation-FP16/denglin/GS40/README.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,49 @@
# 参评AI芯片信息

* 厂商:登临

## 服务器1

- 产品名称:Goldwasser
- 产品型号:GS40
- TDP:150W

# 所用服务器配置

* 服务器数量:1

## 服务器1

* 单服务器内使用卡数:8
* 服务器型号:浪潮NF5468-M7
* 操作系统版本:Ubuntu 20.04.1
* 操作系统内核:linux5.4.0-126
* CPU:Intel(R) Xeon(R) Gold 6430
* docker版本:26.1.2
* 内存:778GiB
* 服务器间AI芯片直连规格及带宽:此评测样例无需服务器间通信

# 评测结果


## 核心评测结果

| 评测项 | FP16算力测试值 | FP16算力标定值 | 测试标定比例 |
| ---- | ----------- | ---------- | ------ |
| 评测结果 | 227.59TFLOPS | 256TFLOPS | 88.9% |

## 能耗监控结果

| 监控项 | 系统平均功耗 | 系统最大功耗 | 系统功耗标准差 | 单机TDP | 单卡平均功耗 | 单卡最大功耗 | 单卡功耗标准差 | 单卡TDP |
| ---- | ------- | ------- | ------- | ----- | ------- | ------ | ------- | ----- |
| 监控结果 | / | / | / | / | 32W | 33W | 1W | 150W |

## 其他重要监控结果

| 监控项 | 系统平均CPU占用 | 系统平均内存占用 | 单卡平均温度 | 单卡平均显存占用 |
| ---- | --------- | -------- | ------- | -------- |
| 监控结果 | / | / | 31°C | / |

# 厂商测试工具原理说明

使用GEMM算子进行computation-bound的计算任务,从而测得实际FP16算力
1 change: 1 addition & 0 deletions base/toolkits/computation-FP16/denglin/GS40/main.sh
Original file line number Diff line number Diff line change
@@ -0,0 +1 @@
v2_tu_bench -i 1,1,64,64,256 -f 256,1,1,1,256 -d fp16 -n 1000 -s -D 0
48 changes: 48 additions & 0 deletions base/toolkits/computation-FP32/denglin/GS40/README.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,48 @@
# 参评AI芯片信息

* 厂商:登临

## 服务器1

- 产品名称:Goldwasser
- 产品型号:GS40
- TDP:150W

# 所用服务器配置

* 服务器数量:1

## 服务器1

* 单服务器内使用卡数:8
* 服务器型号:浪潮NF5468-M7
* 操作系统版本:Ubuntu 20.04.1
* 操作系统内核:linux5.4.0-126
* CPU:Intel(R) Xeon(R) Gold 6430
* docker版本:26.1.2
* 内存:778GiB
* 服务器间AI芯片直连规格及带宽:此评测样例无需服务器间通信

# 评测结果

## 核心评测结果

| 评测项 | FP32算力测试值 | FP32算力标定值 | 测试标定比例 |
| ---- | ----------- | ---------- | ------ |
| 评测结果 | 63.62TFLOPS | 64TFLOPS | 99.4% |

## 能耗监控结果

| 监控项 | 系统平均功耗 | 系统最大功耗 | 系统功耗标准差 | 单机TDP | 单卡平均功耗 | 单卡最大功耗 | 单卡功耗标准差 | 单卡TDP |
| ---- | ------- | ------- | ------- | ----- | ------- | ------ | ------- | ----- |
| 监控结果 | / | / | 0.0W | / | 32W | 33W | 1W | 150W |

## 其他重要监控结果

| 监控项 | 系统平均CPU占用 | 系统平均内存占用 | 单卡平均温度 | 单卡平均显存占用 |
| ---- | --------- | -------- | ------- | -------- |
| 监控结果 | / | / | 32°C | / |

# 厂商测试工具原理说明

使用GEMM算子进行computation-bound的计算任务,从而测得实际FP32算力
1 change: 1 addition & 0 deletions base/toolkits/computation-FP32/denglin/GS40/main.sh
Original file line number Diff line number Diff line change
@@ -0,0 +1 @@
v2_tu_bench -i 1,1,64,64,256 -f 256,1,1,1,256 -d fp32 -n 1000 -s -D 0
48 changes: 48 additions & 0 deletions base/toolkits/computation-INT8/denglin/GS40/README.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,48 @@
# 参评AI芯片信息

* 厂商:登临

## 服务器1

- 产品名称:Goldwasser
- 产品型号:GS40
- TDP:150W

# 所用服务器配置

* 服务器数量:1

## 服务器1

* 单服务器内使用卡数:8
* 服务器型号:浪潮NF5468-M7
* 操作系统版本:Ubuntu 20.04.1
* 操作系统内核:linux5.4.0-126
* CPU:Intel(R) Xeon(R) Gold 6430
* docker版本:26.1.2
* 内存:778GiB
* 服务器间AI芯片直连规格及带宽:此评测样例无需服务器间通信

# 评测结果

## 核心评测结果

| 评测项 | INT8算力测试值 | INT8算力标定值 | 测试标定比例 |
| ---- | ----------- | ---------- | ------ |
| 评测结果 | 496.9TOPS | 512TOPS | 97.05% |

## 能耗监控结果

| 监控项 | 系统平均功耗 | 系统最大功耗 | 系统功耗标准差 | 单机TDP | 单卡平均功耗 | 单卡最大功耗 | 单卡功耗标准差 | 单卡TDP |
| ---- | ------- | ------- | ------- | ----- | ------- | ------ | ------- | ----- |
| 监控结果 | / | / | / | / | 32W | 33W | 1W | 150W |

## 其他重要监控结果

| 监控项 | 系统平均CPU占用 | 系统平均内存占用 | 单卡平均温度 | 单卡平均显存占用 |
| ---- | --------- | -------- | ------- | -------- |
| 监控结果 | / | / | 31°C | / |

# 厂商测试工具原理说明

使用GEMM算子进行computation-bound的计算任务,从而测得实际INT8算力
1 change: 1 addition & 0 deletions base/toolkits/computation-INT8/denglin/GS40/main.sh
Original file line number Diff line number Diff line change
@@ -0,0 +1 @@
v2_tu_bench -i 1,1,64,64,256 -f 256,1,1,1,256 -d int8 -n 1000 -s -D 0
48 changes: 48 additions & 0 deletions base/toolkits/computation-TF32/denglin/GS40/README.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,48 @@
# 参评AI芯片信息

* 厂商:登临

## 服务器1

- 产品名称:Goldwasser
- 产品型号:GS40
- TDP:150W

# 所用服务器配置

* 服务器数量:1

## 服务器1

* 单服务器内使用卡数:8
* 服务器型号:浪潮NF5468-M7
* 操作系统版本:Ubuntu 20.04.1
* 操作系统内核:linux5.4.0-126
* CPU:Intel(R) Xeon(R) Gold 6430
* docker版本:26.1.2
* 内存:778GiB
* 服务器间AI芯片直连规格及带宽:此评测样例无需服务器间通信

# 评测结果

## 核心评测结果

| 评测项 | TF32算力测试值 | TF32算力标定值 | 测试标定比例 |
| ---- | ----------- | --------- | ------ |
| 评测结果 | 103.53TFLOPS | 128TFLOPS | 80.4% |

## 能耗监控结果

| 监控项 | 系统平均功耗 | 系统最大功耗 | 系统功耗标准差 | 单机TDP | 单卡平均功耗 | 单卡最大功耗 | 单卡功耗标准差 | 单卡TDP |
| ---- | ------- | ------- | ------- | ----- | ------- | ------ | ------- | ----- |
| 监控结果 | / | / | / | / | 31W | 32W | 1W | 150W |

## 其他重要监控结果

| 监控项 | 系统平均CPU占用 | 系统平均内存占用 | 单卡平均温度 | 单卡平均显存占用 |
| ---- | --------- | -------- | ------- | -------- |
| 监控结果 | / | / | 32°C | / |

# 厂商测试工具原理说明

使用GEMM算子进行computation-bound的计算任务,从而测得实际TF32算力
1 change: 1 addition & 0 deletions base/toolkits/computation-TF32/denglin/GS40/main.sh
Original file line number Diff line number Diff line change
@@ -0,0 +1 @@
v2_tu_bench -i 1,1,64,64,256 -f 256,1,1,1,256 -d tf32 -n 1000 -s -D 0
51 changes: 51 additions & 0 deletions base/toolkits/interconnect-MPI_intraserver/denglin/GS40/README.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,51 @@
# 参评AI芯片信息

* 厂商:登临

## 服务器1

- 产品名称:Goldwasser
- 产品型号:GS40
- TDP:150W

# 所用服务器配置

* 服务器数量:1

## 服务器1

* 单服务器内使用卡数:8
* 服务器型号:浪潮NF5468-M7
* 操作系统版本:Ubuntu 20.04.1
* 操作系统内核:linux5.4.0-126
* CPU:Intel(R) Xeon(R) Gold 6430
* docker版本:26.1.2
* 内存:778GiB
* 服务器间AI芯片直连规格及带宽:此评测样例无需服务器间通信

# 评测结果

## 核心评测结果

| 评测项 | 服务器内P2P互联带宽测试值 | 服务器P2P互联带宽标定值 | 测试标定比例 |
| ---- | ----------- | -------- | ------ |
| 评测结果 | 15.82GB/s | / | / |

## 能耗监控结果

| 监控项 | 系统平均功耗 | 系统最大功耗 | 系统功耗标准差 | 单机TDP | 单卡平均功耗(2卡平均) | 单卡最大功耗(2卡最大) | 单卡功耗标准差(2卡最大) | 单卡TDP |
| ---- | ------- | ------- | ------- | ----- | ------- | ------ | ------- | ----- |
| 监控结果 | / | / | 0.0W | / | 31W | 32W | 1W | 150W |

## 其他重要监控结果

| 监控项 | 系统平均CPU占用 | 系统平均内存占用 | 单卡平均温度(2卡平均) | 单卡平均显存占用(2卡平均) |
| ---- | --------- | -------- | ------- | -------- |
| 监控结果 | / | / | 31°C | / |

# 厂商测试工具原理说明

使用cudaMemcpy,进行服务器内AI芯片通信操作,计算服务器AI芯片内P2P互联带宽
先设置NCCL和MPI library path:
export LD_LIBRARY_PATH=nccl_library_path:mpi_library_path:$LD_LIBRARY_PATH
export PATH=mpi_bin_path:$PATH
Original file line number Diff line number Diff line change
@@ -0,0 +1,5 @@
export NCCL_P2P_LEVEL=SYS
export NCCL_PROTO=LL128
export NCCL_ALGO=Ring

mpirun --allow-run-as-root -np 8 all_reduce_perf -t 1 -g 1 -b 2M -e 32M -d float -o sum
51 changes: 51 additions & 0 deletions base/toolkits/interconnect-P2P_intraserver/denglin/GS40/README.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,51 @@
# 参评AI芯片信息

* 厂商:登临

## 服务器1

- 产品名称:Goldwasser
- 产品型号:GS40
- TDP:150W

# 所用服务器配置

* 服务器数量:1

## 服务器1

* 单服务器内使用卡数:8
* 服务器型号:浪潮NF5468-M7
* 操作系统版本:Ubuntu 20.04.1
* 操作系统内核:linux5.4.0-126
* CPU:Intel(R) Xeon(R) Gold 6430
* docker版本:26.1.2
* 内存:778GiB
* 服务器间AI芯片直连规格及带宽:此评测样例无需服务器间通信

# 评测结果

## 核心评测结果

| 评测项 | 服务器内P2P互联带宽测试值 | 服务器P2P互联带宽标定值 | 测试标定比例 |
| ---- | ----------- | -------- | ------ |
| 评测结果 | 14.12GB/s | / | / |

## 能耗监控结果

| 监控项 | 系统平均功耗 | 系统最大功耗 | 系统功耗标准差 | 单机TDP | 单卡平均功耗(2卡平均) | 单卡最大功耗(2卡最大) | 单卡功耗标准差(2卡最大) | 单卡TDP |
| ---- | ------- | ------- | ------- | ----- | ------- | ------ | ------- | ----- |
| 监控结果 | / | / | 0.0W | / | 31W | 32W | 1W | 150W |

## 其他重要监控结果

| 监控项 | 系统平均CPU占用 | 系统平均内存占用 | 单卡平均温度(2卡平均) | 单卡平均显存占用(2卡平均) |
| ---- | --------- | -------- | ------- | -------- |
| 监控结果 | / | / | 31°C | / |

# 厂商测试工具原理说明

使用cudaMemcpy,进行服务器内AI芯片通信操作,计算服务器AI芯片内P2P互联带宽
先设置NCCL和MPI library path:
export LD_LIBRARY_PATH=nccl_library_path:mpi_library_path:$LD_LIBRARY_PATH
export PATH=mpi_bin_path:$PATH
Original file line number Diff line number Diff line change
@@ -0,0 +1,5 @@
export NCCL_P2P_LEVEL=SYS
export NCCL_PROTO=LL128
export NCCL_ALGO=Ring

all_reduce_perf -t 1 -g 8 -b 2M -e 32M -d float -o sum
Loading