upvenly · upvenly · Jan 20, 2023 · Jan 29, 2023 · Jan 29, 2023 · Jan 31, 2023
diff --git a/.github/linters/tox.ini b/.github/linters/tox.ini
@@ -1,6 +1,6 @@
 [flake8]
 max-line-length = 120
 
-extend-ignore = E203,E265,E401,E402,E713,F401,W291,W292
+extend-ignore = E231,E266,E203,E265,E401,E402,E713,F401,F403,W291,W292
 
 # reference: https://www.flake8rules.com/
diff --git a/.github/workflows/yapf-check.yml b/.github/workflows/yapf-check.yml
@@ -0,0 +1,17 @@
+name: YAPF Formatting Check
+on:
+  push:
+    branches: [ "main", "master"]
+  pull_request:
+    branches: [ "main", "master"]
+  workflow_dispatch: {}
+jobs:
+  formatting-check:
+    name: Formatting Check
+    runs-on: ubuntu-latest
+    steps:
+    - uses: actions/checkout@v2
+    - name: run YAPF to test if python code is correctly formatted
+      uses: AlexanderMelde/yapf-action@master
+      with:
+        args: --verbose
diff --git a/.gitignore b/.gitignore
@@ -3,4 +3,5 @@
 .ijwb/
 .vscode/
 __pycache__/
-.pytest_cache
+.pytest_cache
+training/result/*
diff --git a/README.md b/README.md
@@ -8,17 +8,147 @@ FlagPerf是一款面向AI异构芯片的通用基准测试平台。我们希望
 
 ----------
 ### 支持模型列表
-| 模型 | AI框架          |  状态 |已适配的厂商|
-| ---- | --------------- | -------- | ---- |
-| [BERT](training/benchmarks/bert/paddle/readme.md) | [paddle](training/benchmarks/bert/paddle/readme.md) |  已支持 | |
-| [CPM](training/benchmarks/cpm/pytorch/readme.md)  | [pytorch](training/benchmarks/cpm/pytorch/readme.md) | 已支持 | |
-| [GLM](training/benchmarks/glm/README.md)  | [pytorch](training/benchmarks/glm/pytorch/readme.md) |  已支持 ||
-| ResNet50  | pytorch |  DOING | |
-| MobileNetV2  | pytorch  | DOING ||
-| ViT  | pytorch |  DOING ||
-| EVA-CLIP  |pytorch  |  DOING ||
-| EVA-Seg  | pytorch |   DOING ||
-| EVA-Det  | pytorch |  DOING ||
+<table width="960" border="0" cellpadding="0" cellspacing="0" style='width:960pt;border-collapse:collapse;table-layout:fixed;'>
+   <col width="73.60" style='mso-width-source:userset;mso-width-alt:3588;'/>
+   <col width="70" style='mso-width-source:userset;mso-width-alt:3413;'/>
+   <col width="200.75" style='mso-width-source:userset;mso-width-alt:9788;'/>
+   <col width="195.80" style='mso-width-source:userset;mso-width-alt:9547;'/>
+   <col width="185.40" style='mso-width-source:userset;mso-width-alt:9040;'/>
+   <tr height="16.80" class="xl65" style='height:16.80pt;'>
+    <td class="xl66" height="16.80" width="73.60" style='height:16.80pt;width:73.60pt;' x:str>模型</td>
+    <td class="xl66" width="70" style='width:70.00pt;' x:str>框架</td>
+    <td class="xl67" width="581.95" colspan="3" style='width:581.95pt;border-right:none;border-bottom:none;' x:str>厂商</td>
+   </tr>
+   <tr height="16.80" style='height:16.80pt;'>
+    <td height="16.80" colspan="2" style='height:16.80pt;mso-ignore:colspan;'></td>
+    <td class="xl65" x:str>英伟达</td>
+    <td class="xl65" x:str>昆仑芯</td>
+    <td class="xl65" x:str>天数智芯</td>
+   </tr>
+   <tr height="16.80" style='height:16.80pt;'>
+    <td class="xl65" height="33.60" rowspan="2" style='height:33.60pt;border-right:none;border-bottom:none;' x:str>BERT</td>
+    <td class="xl69" x:str>PyTorch</td>
+    <td class="xl69" x:str>✅</td>
+    <td class="xl69" x:str>✅</td>
+    <td class="xl69" x:str>N/A</td>
+   </tr>
+   <tr height="16.80" style='height:16.80pt;'>
+    <td class="xl69" x:str>Paddle</td>
+    <td class="xl69" x:str>✅</td>
+    <td class="xl69" x:str>N/A</td>
+    <td class="xl69" x:str>N/A</td>
+   </tr>
+   <tr height="16.80" style='height:16.80pt;'>
+    <td class="xl65" height="33.60" rowspan="2" style='height:33.60pt;border-right:none;border-bottom:none;' x:str>CPM</td>
+    <td class="xl69" x:str>PyTorch</td>
+    <td class="xl69" x:str>✅</td>
+    <td class="xl69" x:str>N/A</td>
+    <td class="xl69" x:str>✅</td>
+   </tr>
+   <tr height="16.80" style='height:16.80pt;'>
+    <td class="xl69" x:str>Paddle</td>
+    <td class="xl69" x:str>N/A</td>
+    <td class="xl69" x:str>N/A</td>
+    <td class="xl69" x:str>N/A</td>
+   </tr>
+   <tr height="16.80" style='height:16.80pt;'>
+    <td class="xl70" height="33.60" rowspan="2" style='height:33.60pt;border-right:none;border-bottom:none;' x:str><a href="https://github.com/FlagOpen/FlagPerf/tree/main/training/benchmarks/glm" target="_parent">GLM</a></td>
+    <td class="xl71" x:str><a href="https://github.com/FlagOpen/FlagPerf/tree/main/training/benchmarks/glm/pytorch" target="_parent">PyTorch</a></td>
+    <td class="xl69" x:str>✅</td>
+    <td class="xl69" x:str>✅</td>
+    <td class="xl69" x:str>✅</td>
+   </tr>
+   <tr height="16.80" style='height:16.80pt;'>
+    <td class="xl69" x:str>Paddle</td>
+    <td class="xl69" x:str>N/A</td>
+    <td class="xl69" x:str>N/A</td>
+    <td class="xl69" x:str>N/A</td>
+   </tr>
+   <tr height="16.80" style='height:16.80pt;'>
+    <td class="xl65" height="50.40" rowspan="3" style='height:50.40pt;border-right:none;border-bottom:none;' x:str>ResNet50</td>
+    <td class="xl69" x:str>PyTorch</td>
+    <td class="xl69" x:str>N/A</td>
+    <td class="xl69" x:str>N/A</td>
+    <td class="xl69" x:str>N/A</td>
+   </tr>
+   <tr height="16.80" style='height:16.80pt;'>
+    <td class="xl69" x:str>Paddle</td>
+    <td class="xl69" x:str>N/A</td>
+    <td class="xl69" x:str>N/A</td>
+    <td class="xl69" x:str>N/A</td>
+   </tr>
+   <tr height="16.80" style='height:16.80pt;'>
+    <td class="xl69" x:str>TensorFlow2</td>
+    <td class="xl69" x:str>✅</td>
+    <td class="xl69" x:str>N/A</td>
+    <td class="xl69" x:str>N/A</td>
+   </tr>
+   <tr height="16.80" style='height:16.80pt;'>
+    <td class="xl65" height="33.60" rowspan="2" style='height:33.60pt;border-right:none;border-bottom:none;' x:str>MobileNetV2</td>
+    <td class="xl69" x:str>PyTorch</td>
+    <td class="xl69" x:str>✅</td>
+    <td class="xl69" x:str>✅</td>
+    <td class="xl69" x:str>N/A</td>
+   </tr>
+   <tr height="16.80" style='height:16.80pt;'>
+    <td class="xl69" x:str>Paddle</td>
+    <td class="xl69" x:str>N/A</td>
+    <td class="xl69" x:str>N/A</td>
+    <td class="xl69" x:str>N/A</td>
+   </tr>
+   <tr height="16.80" style='height:16.80pt;'>
+    <td class="xl65" height="33.60" rowspan="2" style='height:33.60pt;border-right:none;border-bottom:none;' x:str>ViT</td>
+    <td class="xl69" x:str>PyTorch</td>
+    <td class="xl69" x:str>N/As</td>
+    <td class="xl69" x:str>N/A</td>
+    <td class="xl69" x:str>N/A</td>
+   </tr>
+   <tr height="16.80" style='height:16.80pt;'>
+    <td class="xl69" x:str>Paddle</td>
+    <td class="xl69" x:str>N/A</td>
+    <td class="xl69" x:str>N/A</td>
+    <td class="xl69" x:str>N/A</td>
+   </tr>
+   <tr height="16.80" style='height:16.80pt;'>
+    <td class="xl65" height="33.60" rowspan="2" style='height:33.60pt;border-right:none;border-bottom:none;' x:str>EVA-CLIP</td>
+    <td class="xl69" x:str>PyTorch</td>
+    <td class="xl69" x:str>doing</td>
+    <td class="xl69" x:str>N/A</td>
+    <td class="xl69" x:str>N/A</td>
+   </tr>
+   <tr height="16.80" style='height:16.80pt;'>
+    <td class="xl69" x:str>Paddle</td>
+    <td class="xl69" x:str>N/A</td>
+    <td class="xl69" x:str>N/A</td>
+    <td class="xl69" x:str>N/A</td>
+   </tr>
+   <tr height="16.80" style='height:16.80pt;'>
+    <td class="xl65" height="33.60" rowspan="2" style='height:33.60pt;border-right:none;border-bottom:none;' x:str>EVA-Seg</td>
+    <td class="xl69" x:str>PyTorch</td>
+    <td class="xl69" x:str>doing</td>
+    <td class="xl69" x:str>N/A</td>
+    <td class="xl69" x:str>N/A</td>
+   </tr>
+   <tr height="16.80" style='height:16.80pt;'>
+    <td class="xl69" x:str>Paddle</td>
+    <td class="xl69" x:str>N/A</td>
+    <td class="xl69" x:str>N/A</td>
+    <td class="xl69" x:str>N/A</td>
+   </tr>
+   <tr height="16.80" style='height:16.80pt;'>
+    <td class="xl65" height="33.60" rowspan="2" style='height:33.60pt;border-right:none;border-bottom:none;' x:str>EVA-Det</td>
+    <td class="xl69" x:str>PyTorch</td>
+    <td class="xl69" x:str>doing</td>
+    <td class="xl69" x:str>N/A</td>
+    <td class="xl69" x:str>N/A</td>
+   </tr>
+   <tr height="16.80" style='height:16.80pt;'>
+    <td class="xl69" x:str>Paddle</td>
+    <td class="xl69" x:str>N/A</td>
+    <td class="xl69" x:str>N/A</td>
+    <td class="xl69" x:str>N/A</td>
+   </tr>
+  </table>
 
 ### 部署说明
 
@@ -95,7 +225,7 @@ __Tips：__
 '''Test Configs, including'''
 # -*-coding:utf-8 -*-
 
-# Set accelerator's vendor name, e.g. iluvatar, cambricon and kunlun.
+# Set accelerator's vendor name, e.g. iluvatar, cambricon and kunlunxin.
 # We will run benchmarks in training/<vendor>
 VENDOR = "nvidia"
 # Accelerator options for docker. TODO FIXME support more accelerators.
@@ -260,7 +390,7 @@ nvidia_monitor.log  rank1.out.log    rank4.out.log  rank7.out.log
 
 ### 贡献代码
 
-本项目目前由北京智源人工智能研究院、天数智芯、百度PaddlePaddle、昆仑芯共同建设中。
+本项目目前由北京智源人工智能研究院、昆仑芯、天数智芯、百度PaddlePaddle共同建设中。
 诚邀各框架、芯片团队与个人参与！
 ### 联系我们
 

diff --git a/docs/dev/readme-templates/case-readme-template.md b/docs/dev/readme-templates/case-readme-template.md
@@ -1,8 +1,7 @@
 # case README文件模版
 
 > 文档信息说明：
->
-> - 文档位置：每个Case的REAMDE文档位于training/benchmarks/<model>/ <Framework> 目录下
+> - 文档位置：每个Case的REAMDE文档位于training/benchmarks/&lt;model&gt;/&lt;Framework&gt; 目录下
 > - 文档使用的语言：默认为中文README.md，可提供英文版本README.en.md
 > - 文档内容：数据集和模型文件的进一步处理/转换要求、英伟达GPU环境下的运行配置与运行信息参考
 

diff --git a/docs/dev/readme-templates/model-readme-template.md b/docs/dev/readme-templates/model-readme-template.md
@@ -2,7 +2,7 @@
 
 > 文档信息说明
 >
-> - 文档位置：每个模型的REAMDE文档位于training/benchmarks/<model>/  目录下
+> - 文档位置：每个模型的REAMDE文档位于training/benchmarks/&lt;model&gt;/  目录下
 > - 文档使用的语言：默认为中文README.md，可提供英文版本README.en.md
 > - 文档内容：标准模型的说明，包括：模型的信息（模型信息、原始模型代码），测试用的数据集和模型checkpoint下载方法，目前支持的框架
 
@@ -46,14 +46,12 @@
 
 ## 4. 框架与芯片支持情况说明
 
-- 目前FlagPerf提供 <Framework> 的实现，参见：*<对应Framework标准Case的README链接，中英文版本对应>*
+- 目前FlagPerf提供 &lt;Framework&gt; 的实现，参见：*<对应Framework标准Case的README链接，中英文版本对应>*
 - 目前已适配本模型的芯片如下：
 
-*//下表为样例，默认支持Nvidia GPU，对于各芯片，可放入厂商目录里对应Case的README链接，路径在 <vendor>/<model>-<framework>/README.md，如无对应的README文档，直接打✅即可*
+*//下表为样例，默认支持Nvidia GPU，对于各芯片，可放入厂商目录里对应Case的README链接，路径在 &lt;vendor>/&lt;model&gt;-&lt;framework&gt;/README.md，如无对应的README文档，直接打✅即可*
 
 |              | *Pytorch*                    | *Paddle* | *TensorFlow2* |
 | ------------ | ---------------------------- | -------- | ------------- |
 | *Nvidia GPU* | *✅*                          | *✅*      | *N/A*         |
 | *Kunlun XPU* | *<Kunlun对Case的README链接>* | *N/A*    | *N/A*         |
-
-- ## 
diff --git a/docs/dev/readme-templates/readme-layout.md b/docs/dev/readme-templates/readme-layout.md
@@ -2,39 +2,39 @@
 
 ## README目录层级
 
-docs/dev/     规范文档主目录
+```bash
 
-run_pretraining.example.py  # run_pretraining模版
+docs/dev/     规范文档主目录
 
-├── readme-templates  *# readme模版主目录*
-│   ├── case-readme-template.md               *# case readme*
-│   ├── model-readme-template.md 		   *# 模型readme*
-│   ├── readme-layout.md                  			*# readme层级结构* 
-│   ├── vendor-case-readme-template.md  *# 厂商case readme*
-│   └── vendor-readme-template.md          *# 厂商readme*
-└── specifications  *# 规范文档主目录*
-    ├── case-adatpion-spec.md    					 # 厂商适配case规范
-    └── standard-case-spec.md 					   # 标准case规范
+run_pretraining.example.py                      # run_pretraining模版
 
+├── readme-templates                            # readme模版主目录
+│   ├── case-readme-template.md                 # case readme
+│   ├── model-readme-template.md 		        # 模型readme
+│   ├── readme-layout.md                  		# readme层级结构
+│   ├── vendor-case-readme-template.md          # 厂商case readme
+│   └── vendor-readme-template.md               # 厂商readme
+└── specifications                               # 规范文档主目录
+    ├── case-adatpion-spec.md    			    # 厂商适配case规范
+    └── standard-case-spec.md 					# 标准case规范
+```
 
 
 Repo README：repo根目录下，一般无需修改
 
-模型 README: training/benchmark/<model>下，每个模型一个文档
+模型 README: training/benchmark/&lt;model&gt; 下，每个模型一个文档
 
-标准Case README：training/benchmark/<model>-<framework>下，每个case一个文档
+标准Case README：training/benchmark/&lt;model&gt;-&lt;framework&gt;下，每个case一个文档
 
-厂商 README: training/<vendor>/下，每个vendor一个文档，向用户介绍厂商信息，说明适配FlagPerf测试Case的软、硬件环境信息及加速卡监控采集指标
+厂商 README: training/&lt;vendor&gt;/下，每个vendor一个文档，向用户介绍厂商信息，说明适配FlagPerf测试Case的软、硬件环境信息及加速卡监控采集指标
 
-厂商适配case README: training/<vendor>/<model>-<framework>下，产商的每个case一个文档
+厂商适配case README: training/&lt;vendor&gt;/&lt;model&gt;-&lt;framework&gt;下，产商的每个case一个文档
 
 ```Bash
 ├── LICENSE.md
-├── README.md   # REPO README
+├── README.md                           # REPO README
 ├── docs
 │   └── dev
-│       ├── case_adaptation.md          # case适配规范 
-│       ├── case_creation.md            # case添加规范 
 │       └── run_pretraining.example.py  # run_pretraining模版
 ├── flagperf_wechat.png
 ├── logo.png

diff --git a/docs/dev/readme-templates/vendor-case-readme-template.md b/docs/dev/readme-templates/vendor-case-readme-template.md
@@ -2,7 +2,7 @@
 
 > 重点写厂商适配的情况，以及在厂商芯片的机器上的运行情况。
 >
-> 文件路径：training/<vendor>/<model>-<framework>/ 目录下
+> 文件路径：training/&lt;vendor&gt;/&lt;model&gt;-&lt;framework&gt;/ 目录下
 >
 > 文档使用的语言：默认为中文README.md，可提供英文版本README.en.md
 

diff --git a/docs/dev/readme-templates/vendor-readme-template.md b/docs/dev/readme-templates/vendor-readme-template.md
@@ -1,6 +1,6 @@
 # 厂商README文件模版
 
-- 文档位置：每个厂商的REAMDE文档位于training/<vendor>/  目录下
+- 文档位置：每个厂商的REAMDE文档位于training/&lt;vendor&gt;/  目录下
 - 文档使用的语言：默认为中文README.md，可提供英文版本README.en.md
 - 文档的目的：向用户介绍厂商信息，说明适配FlagPerf测试Case的软、硬件环境信息及加速卡监控采集指标。
 
@@ -34,10 +34,10 @@
 ### 容器镜像信息
 
 - 容器构建信息
-  - Dockerfile路径：<vendor>/docker_image/<framework>/Dockerfile
-  - 构建后软件安装脚本：<vendor>/docker_image/<framework>/<framework>_install.sh
+  - Dockerfile路径：&lt;vendor&gt;/docker_image/&lt;framework&gt;/Dockerfile
+  - 构建后软件安装脚本：&lt;vendor&gt;/docker_image/&lt;framework&gt;/&lt;framework&gt;_install.sh
   -        *// 软件安装、目录创建、文件copy等*
-- 核心软件信息（例如cuda等，通常包含在容器的基础镜像中或软件安装脚本<framework>_install.sh）
+- 核心软件信息（例如cuda等，通常包含在容器的基础镜像中或软件安装脚本&lt;framework>_install.sh）
   - AI框架&版本
   -       *//* *例如pip install torch_xmlir --pipsource <pipsource>*
 

diff --git a/docs/dev/run_pretraining.example.py → docs/dev/run_pretraining.py.example b/docs/dev/run_pretraining.example.py → docs/dev/run_pretraining.py.example
@@ -34,6 +34,7 @@
 
 def main() -> Tuple[Any, Any]:
     global logger
+    global config
 
     # init
     init_helper = InitHelper(config)
@@ -141,8 +142,23 @@ def main() -> Tuple[Any, Any]:
     config, state = main()
     if not dist_pytorch.is_main_process():
         sys.exit(0)
+
     # 训练信息写日志
-    global_batch_size = dist_pytorch.global_batch_size(config)
-    finished_info = get_finished_info(start, state, config.do_train,
-                                      global_batch_size)
+    e2e_time = time.time() - now
+    if config.do_train:
+
+        # TODO 构建训练所需的统计信息，包括不限于：e2e_time、training_sequences_per_second、
+        # converged、final_accuracy、raw_train_time、init_time              
+        training_perf = (dist_pytorch.global_batch_size(config) *
+                         state.global_steps) / state.raw_train_time
+        finished_info = {
+            "e2e_time": e2e_time,
+            "training_sequences_per_second": training_perf,
+            "converged": state.converged,
+            "final_accuracy": state.eval_accuracy,
+            "raw_train_time": state.raw_train_time,
+            "init_time": state.init_time,
+        }
+    else:
+        finished_info = {"e2e_time": e2e_time}
     logger.log(Event.FINISHED, message=finished_info, stacklevel=0)