From c7c7b008d92a7d22cf7d994c1ca0bb39fa696826 Mon Sep 17 00:00:00 2001
From: Chaitanya Narisetty <cnariset@andrew.cmu.edu>
Date: Tue, 31 May 2022 14:30:54 +0530
Subject: [PATCH] Squashed commit of the following:
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

commit 047d0c474c18a87c205e566948410be16787e477
Merge: 9396ed37d bfe7bca3a
Author: Shinji Watanabe <sw005320@gmail.com>
Date:   Thu May 19 09:50:02 2022 -0400

    Merge pull request #4378 from akreal/fix-check_short_utt

    Fix minimum input length for Conv2dSubsampling2 in check_short_utt

commit bfe7bca3a98da52714e1c45906cf826704464b7c
Author: Pavel Denisov <pavel.denisov@ims.uni-stuttgart.de>
Date:   Thu May 19 13:41:59 2022 +0200

    Fix minimum input length for Conv2dSubsampling2 in check_short_utt

commit 9396ed37deb8b101fd064d46c85975ad9047bf87
Merge: c54b585c1 e047156ec
Author: Naoyuki Kamo <naoyuki.kamo829@gmail.com>
Date:   Thu May 19 14:50:56 2022 +0900

    Merge pull request #4376 from kamo-naoyuki/libsndfile

    Remove the restriction for libsndfile version

commit c54b585c1ca6693ae7ba7e299a48af762eda6adf
Merge: 9ca49caed 88465607c
Author: Tomoki Hayashi <hayashi.tomoki@g.sp.m.is.nagoya-u.ac.jp>
Date:   Thu May 19 12:29:02 2022 +0900

    Merge pull request #4374 from YosukeHiguchi/master

    Minor fixes for the intermediate loss usage and Mask-CTC decoding

commit e047156ec8df3266259aed03742ac798e365f648
Author: kamo-naoyuki <naoyuki.kamo829@gmail.com>
Date:   Thu May 19 10:11:08 2022 +0900

    remove version restiction for libsndfile

commit 9ca49caed98410cd7d2c71e4781819a1e92b35d9
Merge: b008ac7d5 2952c3bca
Author: Naoyuki Kamo <naoyuki.kamo829@gmail.com>
Date:   Thu May 19 09:38:33 2022 +0900

    Merge pull request #4375 from espnet/kamo-naoyuki-patch-1

    Update .mergify.yml

commit 88465607cf5e899b8ce1b93c5c9fe09b69a2ab83
Author: Yosuke Higuchi <wasapon.dev@gmail.com>
Date:   Thu May 19 07:05:29 2022 +0900

    fix for test

commit 2952c3bca26a70723094d5a160387b7936f71769
Author: Naoyuki Kamo <naoyuki.kamo829@gmail.com>
Date:   Thu May 19 06:59:02 2022 +0900

    Update .mergify.yml

commit b008ac7d58e9ced1a9f8c89cc85ee69d9e9461ab
Merge: 3c96908ed 4203c9c9c
Author: Naoyuki Kamo <naoyuki.kamo829@gmail.com>
Date:   Thu May 19 06:32:44 2022 +0900

    Merge pull request #4372 from kamo-naoyuki/isort

    Add isort checking to the CI tests

commit 4de7aa562f74c596e5b616fd8278a50a707d0198
Author: Yosuke Higuchi <wasapon.dev@gmail.com>
Date:   Thu May 19 06:19:20 2022 +0900

    fix for test

commit 9c83ddb46404334914764a8e4356ea8a4c3c806c
Author: Yosuke Higuchi <wasapon.dev@gmail.com>
Date:   Thu May 19 05:05:01 2022 +0900

    support gpu decoding for mask-ctc

commit 49100e4f1b3fc389c5672dc2ca17973525c4bf02
Author: Yosuke Higuchi <wasapon.dev@gmail.com>
Date:   Thu May 19 05:03:29 2022 +0900

    fix bug for returning intermediate states

commit 4203c9c9c9d5a68cd13d464290cead3738ed003d
Author: kamo-naoyuki <naoyuki.kamo829@gmail.com>
Date:   Wed May 18 17:47:22 2022 +0900

    apply isort

commit d0f2eac70a5521adf59618ba3ce6603e2863f0c5
Author: kamo-naoyuki <naoyuki.kamo829@gmail.com>
Date:   Wed May 18 17:46:47 2022 +0900

    modified for isort options

commit 8f73b73d23d34bf5f3e8ed2f625dca1916ea8683
Author: kamo-naoyuki <naoyuki.kamo829@gmail.com>
Date:   Wed May 18 16:38:34 2022 +0900

    apply black

commit 6974dd4efc11e465d4a3d1a34190c7ed782dacee
Author: kamo-naoyuki <naoyuki.kamo829@gmail.com>
Date:   Wed May 18 16:35:15 2022 +0900

    Add descriptions for isort

commit 24c3676a8d4c2e60d2726e9bcd9bdbed740610e0
Author: kamo-naoyuki <naoyuki.kamo829@gmail.com>
Date:   Wed May 18 16:16:53 2022 +0900

    Apply isort

commit 3c96908edc5c592c9c99bba0640428613dc7c3cb
Merge: c173c3093 aa5d6ffff
Author: Jiatong <728307998@qq.com>
Date:   Tue May 17 18:00:40 2022 -0700

    Merge pull request #4341 from chintu619/st_bugfix

    bug fixes in ST recipes

commit c173c30930631731e6836c274a591ad571749741
Merge: e0e0620ac d38188cc3
Author: Naoyuki Kamo <naoyuki.kamo829@gmail.com>
Date:   Tue May 17 15:20:31 2022 +0900

    Merge pull request #4371 from espnet/kamo-naoyuki-patch-1

    Update .mergify.yml

commit d38188cc30af6cffc4ad0233e7e705e93511c11d
Author: Naoyuki Kamo <naoyuki.kamo829@gmail.com>
Date:   Tue May 17 13:43:40 2022 +0900

    Update .mergify.yml

commit e0e0620acca0df345cf317a13c839d7d4d5c773f
Merge: df053b8c1 2cfbbd337
Author: Tomoki Hayashi <hayashi.tomoki@g.sp.m.is.nagoya-u.ac.jp>
Date:   Tue May 17 13:01:02 2022 +0900

    Merge pull request #4369 from kan-bayashi/minor_fix_jets

commit 2cfbbd337d64f68e1f937e37feeb544d972c4e0b
Author: kan-bayashi <hayashi.tomoki@g.sp.m.is.nagoya-u.ac.jp>
Date:   Tue May 17 11:06:00 2022 +0900

    updated jets test

commit 17ab7747fe7e0d4d6885847f2c738253a859dedf
Author: kan-bayashi <hayashi.tomoki@g.sp.m.is.nagoya-u.ac.jp>
Date:   Tue May 17 11:05:52 2022 +0900

    updated README

commit 6ec8c27815c6fded4c13b01b8d2707016e9e8e95
Author: kan-bayashi <hayashi.tomoki@g.sp.m.is.nagoya-u.ac.jp>
Date:   Tue May 17 09:25:41 2022 +0900

    updated README

commit b1e6c752b0d94f3209593e0cdbd5b43d79e8076d
Author: kan-bayashi <hayashi.tomoki@g.sp.m.is.nagoya-u.ac.jp>
Date:   Tue May 17 09:19:54 2022 +0900

    shorten jets test

commit df053b8c13c26fe289fc882751801fd781e9d43e
Merge: afa8f8ec5 5aa543a9f
Author: Tomoki Hayashi <hayashi.tomoki@g.sp.m.is.nagoya-u.ac.jp>
Date:   Tue May 17 08:13:36 2022 +0900

    Merge pull request #4364 from imdanboy/master

    add e2e tts model: JETS

commit 5aa543a9ff6c329f5fc601f3aa053ffd4afb19ba
Author: Tomoki Hayashi <hayashi.tomoki@g.sp.m.is.nagoya-u.ac.jp>
Date:   Mon May 16 21:13:30 2022 +0900

    minor fix of docstrings and comments

commit a82e78d18aca9c00bcf8f378c42e78a0de24940e
Author: imdanboy <imdanboy@gmail.com>
Date:   Fri May 13 22:28:31 2022 +0900

    JETS; e2e tts model

commit afa8f8ec5b8ec77deb1a3c1531915ebbee7b80e6
Merge: fffb3444f cd77501a8
Author: Shinji Watanabe <sw005320@gmail.com>
Date:   Fri May 13 17:36:30 2022 -0400

    Merge pull request #4349 from pyf98/quantization

    Add quantization in ESPnet2 for asr inference

commit fffb3444fe4d8ef2630a22dd145d6f1fb0caab46
Merge: f840b8114 5331890e6
Author: Naoyuki Kamo <naoyuki.kamo829@gmail.com>
Date:   Fri May 13 20:36:39 2022 +0900

    Merge pull request #4361 from espnet/kamo-naoyuki-patch-1

    Update README.md

commit aa5d6ffff67079f2cbe6a7e1eba852e459f0f6a4
Author: Chaitanya Narisetty <cnariset@andrew.cmu.edu>
Date:   Fri May 13 05:15:32 2022 -0400

    fix lm tag names

commit 3cac7bb7f732a694f4b87007271d394a9ee3838e
Author: Chaitanya Narisetty <cnariset@andrew.cmu.edu>
Date:   Fri May 13 05:07:55 2022 -0400

    resolve conflicts and fix lm_train filenames

commit ea44663e8a24ebfcaa03f3bba149e561e970fdf3
Author: Chaitanya Narisetty <cnariset@andrew.cmu.edu>
Date:   Fri May 13 04:43:18 2022 -0400

    review suggested changes

commit 650c733437da32627f88fe369555ce1955536087
Merge: 6d1bd3a8e f840b8114
Author: Chaitanya Narisetty <cnariset@andrew.cmu.edu>
Date:   Fri May 13 03:18:08 2022 -0400

    Merge branch 'espnet_master' into st_bugfix

commit 5331890e6a6a61a3006e5e2c13d47172f5587a29
Author: Naoyuki Kamo <naoyuki.kamo829@gmail.com>
Date:   Fri May 13 13:15:40 2022 +0900

    Update README.md

commit f840b8114452b4803b8fb25c1f22a93da146e9ba
Merge: 1b1241040 9cfd6af64
Author: Naoyuki Kamo <naoyuki.kamo829@gmail.com>
Date:   Fri May 13 13:13:34 2022 +0900

    Merge pull request #4348 from kamo-naoyuki/1.11.0

    Add pytorch=1.10.2 and 1.11.0 to ci configurations

commit 9cfd6af64a28237019196cd495fbd2943790ce21
Author: kamo-naoyuki <naoyuki.kamo829@gmail.com>
Date:   Fri May 13 09:58:04 2022 +0900

    fix

commit 2625be71a722e7eb030dff4f71d8dc9599a33844
Author: kamo-naoyuki <naoyuki.kamo829@gmail.com>
Date:   Fri May 13 03:46:24 2022 +0900

    remove warning

commit 9a2001fac56dddf5ba1c2eaec092cb420f83f7c9
Author: kamo-naoyuki <naoyuki.kamo829@gmail.com>
Date:   Fri May 13 03:44:11 2022 +0900

    fix for pytorch1.11 (+= became inplace op)

commit 5518b6ba0af0bba9e9d59d6c47607656f49c9988
Author: kamo-naoyuki <naoyuki.kamo829@gmail.com>
Date:   Thu May 12 22:04:42 2022 +0900

    fix import order

commit 98689a5f0bfd88efffdbbcdd5d924e186d563a91
Author: kamo-naoyuki <naoyuki.kamo829@gmail.com>
Date:   Thu May 12 21:17:35 2022 +0900

    change to show the error logs when jobs are failed

commit bb0d0aaa9e9f9076ac88aad425ad2f2caef369a7
Author: kamo-naoyuki <naoyuki.kamo829@gmail.com>
Date:   Thu May 12 20:40:39 2022 +0900

    fix code style

commit 934b161f1f714637c3d7d47c14f8c810a9df6fe2
Author: kamo-naoyuki <naoyuki.kamo829@gmail.com>
Date:   Thu May 12 20:33:58 2022 +0900

    change to show the error logs when jobs are failed

commit 5c474b96c543c3d26e95b432355bcfd2bf8dc116
Author: kamo-naoyuki <naoyuki.kamo829@gmail.com>
Date:   Thu May 12 20:20:18 2022 +0900

    remove verbosity options

commit 005aad11b37acf388c6b70143ab40a5231bc7a39
Author: kamo-naoyuki <naoyuki.kamo829@gmail.com>
Date:   Thu May 12 20:04:57 2022 +0900

    fix

commit 5c4b966a957062e4de298bcb69fe8cf6f1365fd1
Author: kamo-naoyuki <naoyuki.kamo829@gmail.com>
Date:   Thu May 12 19:36:11 2022 +0900

    remove tests for python=3.10.0 temporary

commit 809ac3741814b7d9ebdd351b9e0e9343e236977c
Author: kamo-naoyuki <naoyuki.kamo829@gmail.com>
Date:   Thu May 12 19:27:20 2022 +0900

    fix

commit 86186b744fb2bfc259909c49cc906fb0856d15bf
Author: kamo-naoyuki <naoyuki.kamo829@gmail.com>
Date:   Thu May 12 19:10:18 2022 +0900

    add installation for packaging

commit 8fbac77268906075043cbecfb3e1c5625b145fce
Author: kamo-naoyuki <naoyuki.kamo829@gmail.com>
Date:   Thu May 12 18:59:17 2022 +0900

    fix

commit b0050d97da3d0545b62a5d21b029ddd016ce6ca1
Author: kamo-naoyuki <naoyuki.kamo829@gmail.com>
Date:   Thu May 12 18:56:52 2022 +0900

    fix

commit 6e9035d42eea31cad87a7c8b87fc79635a6df7c2
Author: kamo-naoyuki <naoyuki.kamo829@gmail.com>
Date:   Thu May 12 18:32:33 2022 +0900

    fix

commit 1c344a95ceb83b4b44675aee5326afeb9284d8e8
Author: kamo-naoyuki <naoyuki.kamo829@gmail.com>
Date:   Thu May 12 18:25:35 2022 +0900

    change LooseVersion to parse

commit f899a05768436cc38fb432d6f002ab667983abbd
Author: kamo-naoyuki <naoyuki.kamo829@gmail.com>
Date:   Thu May 12 18:09:33 2022 +0900

    fix

commit 7d5242212403e740c4d5b8ebd9a346a991ea50a9
Author: kamo-naoyuki <naoyuki.kamo829@gmail.com>
Date:   Thu May 12 18:09:15 2022 +0900

    fix

commit b7cfdd9a70559271e45de103e242228f94e837ff
Author: kamo-naoyuki <naoyuki.kamo829@gmail.com>
Date:   Thu May 12 18:05:41 2022 +0900

    Change LooseVersion to parse

commit d234b9ab30bbc2bb6fd42d6335421a6f8a9ed637
Author: kamo-naoyuki <naoyuki.kamo829@gmail.com>
Date:   Thu May 12 17:10:40 2022 +0900

    fix

commit 1b1241040e1e30e575a182b6be8b8e4602badeb8
Merge: 39bae01e4 52c238d02
Author: Shinji Watanabe <sw005320@gmail.com>
Date:   Wed May 11 13:00:13 2022 -0400

    Merge pull request #4352 from espnetUser/master

    Add unit test to streaming ASR inference

commit 52c238d02d50fcfb2c4e2a5058c743c7db913eec
Author: espnetUser <81252087+espnetUser@users.noreply.github.com>
Date:   Wed May 11 16:10:04 2022 +0200

    Applied black formating to test_asr_inference.py for PR

commit 87c7573874aeec096dd1e902478d3dd6e2c83ad2
Author: espnetUser <81252087+espnetUser@users.noreply.github.com>
Date:   Wed May 11 15:43:01 2022 +0200

    Update asr_inference_streaming.py

    Fix CI error on mismatch in Tensor dtypes

commit 39bae01e4a132da69b9b0d025da8c579a5f38b77
Merge: dd24d7d41 71f3c8813
Author: Tomoki Hayashi <hayashi.tomoki@g.sp.m.is.nagoya-u.ac.jp>
Date:   Wed May 11 17:53:04 2022 +0900

    Merge pull request #4355 from kan-bayashi/fix_lid_in_gan_tts

commit dd24d7d41517202b308afb186f466c8006ae4c14
Merge: 2dde7734b f7b390582
Author: Tomoki Hayashi <hayashi.tomoki@g.sp.m.is.nagoya-u.ac.jp>
Date:   Wed May 11 17:52:09 2022 +0900

    Merge pull request #4206 from WeiGodHorse/master

commit 2dde7734bade874d4f8cfe7df4be069e64259fd5
Merge: beb336027 ec7e2b07b
Author: Tomoki Hayashi <hayashi.tomoki@g.sp.m.is.nagoya-u.ac.jp>
Date:   Wed May 11 16:27:55 2022 +0900

    Merge pull request #4356 from kan-bayashi/fix_mixed_precision_vits

    fix loss = NaN in VITS with mixed precision

commit 7a590ccd0da4897ef283486776f134eabe865ce0
Author: espnetUser <81252087+espnetUser@users.noreply.github.com>
Date:   Wed May 11 09:25:03 2022 +0200

    Applied black formating to test_asr_inference.py for PR

commit ec7e2b07bfa85c8a2292de7a2edbf1c2cd956d99
Author: kan-bayashi <hayashi.tomoki@g.sp.m.is.nagoya-u.ac.jp>
Date:   Wed May 11 14:48:36 2022 +0900

    fixed black

commit 2be9ddc5a2c0a7c4aad2b155fa1450222ca0c7a3
Author: kan-bayashi <hayashi.tomoki@g.sp.m.is.nagoya-u.ac.jp>
Date:   Wed May 11 14:28:05 2022 +0900

    fixed mixed_precision NaN (#4236)

commit 71f3c88133c7a29db54baa7eaa3b4fdf329cbdf5
Author: kan-bayashi <hayashi.tomoki@g.sp.m.is.nagoya-u.ac.jp>
Date:   Wed May 11 13:39:59 2022 +0900

    fixed optional data names for TTS

commit ee57ff94dfa2c3ced30c1b103076b4ae18fa9199
Author: espnetUser <81252087+espnetUser@users.noreply.github.com>
Date:   Tue May 10 22:37:18 2022 +0200

    Update asr_inference_streaming.py

    Fix dtype CI error

commit 272d5d015f89f1520c82c31bd309fdce89d88f50
Author: espnetUser <81252087+espnetUser@users.noreply.github.com>
Date:   Tue May 10 21:52:21 2022 +0200

    Update test_asr_inference.py

    Remove streaming=true parameter

commit c96e0d7f79e6e94e568b22156eb61004d5d8cf8c
Author: espnetUser <81252087+espnetUser@users.noreply.github.com>
Date:   Tue May 10 21:25:57 2022 +0200

    Aplied black formating to test_asr_inference.py for PR

commit cd77501a8f09b5b11bf5422b0e24b8316820af77
Author: Yifan Peng <pengyf21@gmail.com>
Date:   Tue May 10 12:02:07 2022 -0400

    fix error for rnn encoders flatten_parameters

commit 3aafdb9d92c8c61d62be72f0907da957d177aa8c
Author: espnetUser <81252087+espnetUser@users.noreply.github.com>
Date:   Tue May 10 17:05:48 2022 +0200

    Update asr_inference_streaming.py

    Bugfix in streaming inference #4216

commit 61b50138b7e8828506a18067cc2f482e745e83d7
Author: espnetUser <81252087+espnetUser@users.noreply.github.com>
Date:   Tue May 10 16:58:14 2022 +0200

    Update test_asr_inference.py

    Added edge test case for streaming asr unit test and increased execution time out

commit 052dd603900362048675f65058b7a6f4bd94bc7d
Author: Yifan Peng <pengyf21@gmail.com>
Date:   Mon May 9 23:27:41 2022 -0400

    fix ci

commit 06e2a7a16a06cda326035d03c84734d18c852cd3
Author: Yifan Peng <pengyf21@gmail.com>
Date:   Mon May 9 23:10:14 2022 -0400

    apply black

commit a48423fda5ab75d1205396ca5f744dc8ca98df00
Author: Yifan Peng <pengyf21@gmail.com>
Date:   Mon May 9 22:59:57 2022 -0400

    add test for espnet2 quantization

commit acb24c886f47fec7a00063cb66423e7bd52ea0bc
Author: Yifan Peng <pengyf21@gmail.com>
Date:   Mon May 9 22:59:39 2022 -0400

    add quantization to asr_inference

commit b98fc861939310b73b50f959bc45176da10ef493
Author: kamo-naoyuki <naoyuki.kamo829@gmail.com>
Date:   Tue May 10 11:52:27 2022 +0900

    fix

commit 3428f032d58c73902b5e6fe80307eb08cfc64ff6
Merge: 4ff2ce124 beb336027
Author: Naoyuki Kamo <naoyuki.kamo829@gmail.com>
Date:   Tue May 10 11:42:23 2022 +0900

    Merge branch 'master' into 1.11.0

commit 4ff2ce1244e0af72439deaa59226eba434a70618
Author: kamo-naoyuki <naoyuki.kamo829@gmail.com>
Date:   Tue May 10 11:34:31 2022 +0900

    add pytorch=1.10.1, 1.11.0 to ci configurations

commit beb3360276aa9ff65fe84f4c5e99c0c063c2a6be
Merge: 537f9b6c1 79cda74ba
Author: Shinji Watanabe <sw005320@gmail.com>
Date:   Mon May 9 16:27:37 2022 -0400

    Merge pull request #4347 from YosukeHiguchi/espnet2_maskctc2

    Minor fix for Mask-CTC forward function

commit 79cda74ba20f0b795251e23a9cb9fd624e2be02d
Author: Yosuke Higuchi <wasapon.dev@gmail.com>
Date:   Mon May 9 22:43:29 2022 +0900

    add kwargs in forward argument

commit 537f9b6c14ab195cdcd21c404656c8534295f15d
Merge: 793b999a5 9e8e75315
Author: Shinji Watanabe <sw005320@gmail.com>
Date:   Sun May 8 17:34:55 2022 -0400

    Merge pull request #4343 from Emrys365/complex_support

    Fix a bug in stats aggregation when PITSolver is used

commit 9e8e753154f5f71c9cb26217483427adb278759c
Author: Wangyou Zhang <C0me_On@163.com>
Date:   Sat May 7 13:16:35 2022 +0800

    Apply black

commit 5ea4e087a311ab7c798950e68ae92e10b1bb41d8
Author: Wangyou Zhang <C0me_On@163.com>
Date:   Sat May 7 12:05:49 2022 +0800

    Fix a bug in stats aggregation when PITSolver is used

commit 6d1bd3a8ef695a75358d019cc1b33100817c0dad
Merge: eb6dc2d55 793b999a5
Author: Chaitanya Narisetty <cnariset@andrew.cmu.edu>
Date:   Fri May 6 10:51:14 2022 -0400

    Merge branch 'espnet:master' into st_bugfix

commit eb6dc2d55faac7e62742d0b7791d8f3a991e91d1
Author: Chaitanya Narisetty <cnariset@andrew.cmu.edu>
Date:   Fri May 6 10:08:19 2022 -0400

    typo fix

commit 8c56ee817867358f2a8130372fd914c136bd7a5b
Author: Chaitanya Narisetty <cnariset@andrew.cmu.edu>
Date:   Fri May 6 08:59:26 2022 -0400

    bug fixes in ST recipes

    * Change sampling frequency in `fbank.conf` and `pitch.conf` in Covost2 recipe
    * In `run.sh`, if language is low resource, then have more speed perturbations. Fix typos for test sets
    * In `st.sh`
      * fix directory naming issues to avoid replacement for different language pairs
      * Replace `>>` with `>` to replace previous inference results
      * Fix removing of empty text in stage 4
      * When removing utterance-ID in `ref.trn.org` or `hyp.trn.org`, the current implementation removes all words in parenthesis instead of removing just the utterance-ID from the end of each line. Fixed this by changing `perl -pe 's/\([^\)]+\)//g;'` to `perl -pe 's/\([^\)]+\)$//g;'`

commit f7b390582d2d77b113a92a5e52f907d5832d6f04
Author: 魏宪豪 <weixianhao@bytedance.com>
Date:   Fri May 6 20:18:05 2022 +0800

    change a test file to conform new pypinyin package

commit b83128fafc913e775a49d37a5cad24a893718020
Author: 魏宪豪 <weixianhao@bytedance.com>
Date:   Fri May 6 17:54:20 2022 +0800

    Fix missing punctuation

commit 931fd226babe69b35c6e3a6a288e5e0c901736a1
Author: 魏宪豪 <weixianhao@bytedance.com>
Date:   Fri May 6 16:54:31 2022 +0800

    reformat

commit 793b999a50af484a5eaf6227ef7556b48514ef15
Merge: 4f41a1a06 6d0672882
Author: Shinji Watanabe <sw005320@gmail.com>
Date:   Thu May 5 21:54:27 2022 -0400

    Merge pull request #4330 from pyf98/show_translation_result

    Update show_translation_result.sh to show all decoding results under the given exp directory

commit 4f41a1a06ecd96af567bc73d1d6734531dd3cb44
Merge: a49cc60cd f0d7cc2bf
Author: Shinji Watanabe <sw005320@gmail.com>
Date:   Thu May 5 21:53:10 2022 -0400

    Merge pull request #4329 from roshansh-cmu/wandb

    Wandb Minor Fix for Model Resume

commit a49cc60cda690e448d925c3e2bfdc5a85b3f5cd3
Merge: de624ed58 21fba33c6
Author: Shinji Watanabe <sw005320@gmail.com>
Date:   Thu May 5 21:51:43 2022 -0400

    Merge pull request #4338 from espnet/ftshijt-patch-1

    Fix typo

commit 21fba33c69d9199c6897ffc6da8433ab94b7051d
Author: Jiatong <728307998@qq.com>
Date:   Thu May 5 21:25:10 2022 -0400

    Fix typo

commit de624ed58953d17907fb241c5cb6514f27510162
Merge: b757b89d4 fe288000d
Author: Shinji Watanabe <sw005320@gmail.com>
Date:   Thu May 5 16:10:44 2022 -0400

    Merge pull request #4332 from simpleoier/chime6

    add chime6 recipe

commit c504336661fa3cefa60b2214da39fbf0118fce49
Merge: 50269e8b4 b757b89d4
Author: 魏宪豪 <weixianhao@bytedance.com>
Date:   Wed May 4 21:58:43 2022 +0800

    Merge remote-tracking branch 'upstream/master'

commit fe288000dbde339b4c386408af488af4bac423b6
Author: simpleoier <netnetchangxk@gmail.com>
Date:   Tue May 3 17:51:36 2022 -0400

    add egs2/chime6/asr1 recipe

commit 6d06728820576ed96a729b3477a29ccab12542f1
Author: Yifan Peng <pengyf21@gmail.com>
Date:   Sat Apr 30 20:53:52 2022 -0400

    fix ci

commit 72333a892d16ef913633111120f159008812795e
Author: Yifan Peng <pengyf21@gmail.com>
Date:   Sat Apr 30 20:34:06 2022 -0400

    fix ci

commit f15e6adaafaca380ea152cf2b38d604eea3603d3
Author: Yifan Peng <pengyf21@gmail.com>
Date:   Sat Apr 30 18:54:37 2022 -0400

    quote expansion

commit f6731cd97565bf4108f1064a83f1fffea4ca351b
Author: Yifan Peng <pengyf21@gmail.com>
Date:   Sat Apr 30 18:43:49 2022 -0400

    update mt.sh

commit 552060a1d5670d0fd838bd8e10fc9e47a1122346
Author: Yifan Peng <pengyf21@gmail.com>
Date:   Sat Apr 30 18:41:41 2022 -0400

    update show translation result

commit f0d7cc2bfbc8f68c42820262a8ca6e4906f3818b
Author: Roshan S Sharma <36464960+roshansh-cmu@users.noreply.github.com>
Date:   Fri Apr 29 20:57:18 2022 -0400

    Delete resnet.py

commit 79c071e9ecd268a1963e8ca3863a2f5eaf34a525
Author: roshansh-cmu <roshansh@andrew.cmu.edu>
Date:   Fri Apr 29 20:54:37 2022 -0400

    Wandb minor fix for model resume

commit ffe7c58ac8a255769f6952b8c7225a5158a00068
Merge: 835033c70 b757b89d4
Author: Roshan S Sharma <36464960+roshansh-cmu@users.noreply.github.com>
Date:   Fri Apr 29 20:45:47 2022 -0400

    Merge branch 'espnet:master' into master

commit b757b89d45d5574cebf44e225cbe32e3e9e4f522
Merge: 930b380de 664414c8f
Author: Tomoki Hayashi <hayashi.tomoki@g.sp.m.is.nagoya-u.ac.jp>
Date:   Fri Apr 29 16:11:56 2022 +0900

    Merge pull request #4320 from cadia-lvl/add-progress-bar

commit 930b380de02b31f8d2da4144d471e60ed41d70fc
Merge: 2a48371b8 de81cf979
Author: Shinji Watanabe <sw005320@gmail.com>
Date:   Thu Apr 28 16:30:34 2022 -0400

    Merge pull request #4316 from simpleoier/enh_s2t

    add egs2/chime4/enh_asr1 recipe and results

commit de81cf979fd61ab13e0ab0fe0432fbbaa4776be3
Author: simpleoier <netnetchangxk@gmail.com>
Date:   Thu Apr 28 11:54:10 2022 -0400

    update egs2/chime4/enh_asr1/README.md and related enh1, asr1 configs.

commit 664414c8f27d5148377ffa733c7f8369eaf7ebd4
Author: kan-bayashi <hayashi.tomoki@g.sp.m.is.nagoya-u.ac.jp>
Date:   Thu Apr 28 21:31:45 2022 +0900

    fixed flake8

commit 2a48371b8ceffd4899dc08f2fc5df092ed1d8a93
Merge: 72c1d8f2b 5a9178236
Author: Shinji Watanabe <sw005320@gmail.com>
Date:   Thu Apr 28 07:40:31 2022 -0400

    Merge pull request #4243 from D-Keqi/master

    Add streaming ST/SLU

commit 72c1d8f2bde996febde895c603722dba1634cf20
Merge: b7f0a5a6f 406656cdc
Author: Shinji Watanabe <sw005320@gmail.com>
Date:   Thu Apr 28 07:37:23 2022 -0400

    Merge pull request #4110 from earthmanylf/dpclanddan

    Merge Deep Clustering and Deep Attractor Network to enh separator

commit b7f0a5a6fc227049c1b8735d8ac4362c27333022
Merge: 44971ff96 2d950f962
Author: Shinji Watanabe <sw005320@gmail.com>
Date:   Thu Apr 28 07:33:11 2022 -0400

    Merge pull request #4328 from Emrys365/egs2_aishell4

    Rename egs2/clarity21/enh_2021 to egs2/clarity21/enh1

commit 2d950f96223fd4823203b6a4e9afdc86b2357e7e
Author: Wangyou Zhang <C0me_On@163.com>
Date:   Thu Apr 28 16:58:26 2022 +0800

    Rename egs2/clarity21/enh_2021/

commit 2b663318cd1773fb8685b1e03295b6bc6889c283
Author: simpleoier <netnetchangxk@gmail.com>
Date:   Thu Apr 28 00:59:22 2022 -0400

    fix small bugs and add CHiME4 enh_asr1 recipe & results

commit 406656cdcb668a77910074b4382b557b6f845c54
Author: earthmanylf <411214987@qq.com>
Date:   Thu Apr 28 11:10:11 2022 +0800

    Add custom name in __init__ in tf_domain.py; Merge test_dpcl_loss.py to test_tf_domain.py

commit 5a9178236bc1a7a4a5db82ad84773d9c43199c81
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Thu Apr 28 10:31:29 2022 +0800

    use the another st_inference

commit 9e4bb7fa88e8c63e69712e77c5b783c64181fbc2
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Thu Apr 28 10:13:59 2022 +0800

    fix conflict

commit 21d2ac6331ec0779b8ec2d3265ccdfabfaacbd61
Merge: b801ddc96 44971ff96
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Thu Apr 28 10:12:15 2022 +0800

    Merge pull request #17 from espnet/master

    merge the latest espnet

commit b801ddc96aedd2a9b4e63d2e3612c3cf7417799a
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Thu Apr 28 10:11:11 2022 +0800

    Add files via upload

commit 316cf02340a627548b71317ba04afac457f68101
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Thu Apr 28 10:04:29 2022 +0800

    fix conflict

commit 9b33b791d7c7b509f514b7540a8ec5dd7fff9d0b
Author: earthmanylf <411214987@qq.com>
Date:   Wed Apr 27 23:22:22 2022 +0800

    Fix format

commit 346a42467881e5bbd9414200dd3c915935eb56dd
Author: earthmanylf <411214987@qq.com>
Date:   Wed Apr 27 22:37:22 2022 +0800

    Fix format

commit 44971ff962aae30c962226f1ba3d87de057ac00e
Merge: 0ae377389 c4b93e8fd
Author: Jiatong <728307998@qq.com>
Date:   Wed Apr 27 10:13:03 2022 -0400

    Merge pull request #4324 from ftshijt/master

    Add Test Functions for ST Train and Inference

commit 0d3be31602306650fee44c367cbc788e0b0462db
Author: earthmanylf <411214987@qq.com>
Date:   Wed Apr 27 22:09:12 2022 +0800

    Fix format

commit b24d108b0d7d501b2faa1971feca5a281198d351
Merge: 4c679c061 f1312a8b2
Author: earthmanylf <411214987@qq.com>
Date:   Wed Apr 27 21:29:33 2022 +0800

    Fix conflict

commit 4c679c061c1a0be411f613bdbdeb7849af19edf4
Merge: a90e2ecef 0ae377389
Author: earthmanylf <411214987@qq.com>
Date:   Wed Apr 27 21:15:33 2022 +0800

    Fix conflict

commit 10e6c7ea2e5783442631213dfc20dd7b9543839d
Author: Gunnar Thor <ornolfsson@gmail.com>
Date:   Wed Apr 27 09:30:47 2022 +0000

    split docstring to conform with linter

commit c4b93e8fd870954ec2649abc3fc6172d78d92166
Author: ftshijt <728307998@qq.com>
Date:   Wed Apr 27 01:49:00 2022 -0400

    apply black

commit 04d0cd84878701a0ff5e09933581c98ef7e0adac
Merge: 72b6b21d5 4a12ab320
Author: ftshijt <728307998@qq.com>
Date:   Wed Apr 27 01:27:36 2022 -0400

    Merge branch 'master' of https://github.com/ftshijt/espnet

commit 72b6b21d509a26d30a454525811c3530ee6b297b
Author: ftshijt <728307998@qq.com>
Date:   Wed Apr 27 01:27:09 2022 -0400

    add st unit test

commit d1e8ac3d8717f8717fb645592c25ee8cafc4060c
Author: ftshijt <728307998@qq.com>
Date:   Wed Apr 27 01:15:18 2022 -0400

    update test

commit 5fb7dd619293dcd1cc02c6371c4079c22a40a23b
Author: ftshijt <728307998@qq.com>
Date:   Wed Apr 27 00:53:46 2022 -0400

    remove requirement for src_token_list

commit 4118b1b21f25fc7d8aa56658cd7ff691684884be
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Wed Apr 27 10:31:42 2022 +0800

    fix conflict

commit 5436784241eaa4f60e0990627758a841e7927651
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Wed Apr 27 10:06:19 2022 +0800

    Update test_integration_espnet2.sh

commit 469168b4451b4922306b3393598d199a514acd50
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Wed Apr 27 10:04:56 2022 +0800

    fix issue

commit 06ddfe19a346f1ea8b620e4eb5bf61bfdcfc3309
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Wed Apr 27 10:01:38 2022 +0800

    fix conflict

commit 5a81f91ce6734745272e6d960261797cfcb3dd41
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Wed Apr 27 09:57:18 2022 +0800

    fix conflict

commit 91d48d920c229af3902fc05c361ba1b5f1636c67
Author: Gunnar Thor <ornolfsson@gmail.com>
Date:   Tue Apr 26 22:21:13 2022 +0000

    applied black

commit ec518ccc74b85e3b50304ab70ae5a1f069df0038
Author: Gunnar Thor <ornolfsson@gmail.com>
Date:   Wed Feb 23 11:31:56 2022 +0000

    Add progress bar to phonemization

commit f1312a8b2eeecf57f740b963b832dc4a806ac5f8
Author: earthmanylf <43513215+earthmanylf@users.noreply.github.com>
Date:   Mon Apr 25 10:37:19 2022 +0800

    Update README.md

    Co-authored-by: Wangyou Zhang <C0me_On@163.com>

commit a90e2ecef4854884dc525345a466f33fce79bd0a
Author: earthmanylf <411214987@qq.com>
Date:   Sun Apr 24 22:55:54 2022 +0800

    Fix format problems

commit be0112bf99c7caf787feba50c7dbc47a1879dbfb
Author: earthmanylf <411214987@qq.com>
Date:   Sun Apr 24 22:06:45 2022 +0800

    Fix format problems

commit 16acdadb6dba56d0f91a3132b540a01c9bd25c89
Merge: feb28baf9 f6a2522ad
Author: earthmanylf <411214987@qq.com>
Date:   Sun Apr 24 21:14:02 2022 +0800

    Fix conflict

commit 95be28ab0e48415922677a92639833d648f3844c
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Sat Apr 23 14:47:11 2022 +0800

    Fix CI

commit a0966f61701041228c96924359b8e6678960a31a
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Sat Apr 23 14:46:10 2022 +0800

    Fix CI

commit 1daecd4570f477da905e4365ff30e4c0be53ca44
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Sat Apr 23 14:44:21 2022 +0800

    fix CI

commit 7261735b82173ae5ac377844fad2f3b9289e08ec
Merge: 809106e2a f6a2522ad
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Sat Apr 23 14:21:06 2022 +0800

    Merge pull request #15 from espnet/master

    Merging the latest ESPnet

commit 809106e2a512990b30fd1afcf2c7bf897d185d58
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Sat Apr 23 12:33:18 2022 +0800

    show the log result

commit 65b53563cac0fdc09d653112f85dd735313cb650
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Sat Apr 23 11:10:41 2022 +0800

    show the error report in the log

commit 36bdfcbfd0731e543db130b6fb756e140f9f2cb2
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Thu Apr 21 15:21:07 2022 +0800

    fix ci

commit c8e05efd90ea4c9f775b149916d05f0f74092157
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Thu Apr 21 11:30:54 2022 +0800

    fix ci

commit 4831a6671728e52f0b2a0766a7c4cb60dd3d470f
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Wed Apr 20 20:34:26 2022 +0800

    fix CI

commit 26fc7e1b41c57dc5c6a6882fe20a8847ee5a055c
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Wed Apr 20 16:37:29 2022 +0800

    Add files via upload

commit b7c7bf13f9df6d9c09888c21c5c071c15f1023bc
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Wed Apr 20 15:19:37 2022 +0800

    fix ci

commit 2b1b6bbef15553a11862a9c74352bed95412337d
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Wed Apr 20 11:33:40 2022 +0800

    fix fbank_pitch issue

commit 0d5736fc393332465ae49a620392735a22312c97
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Wed Apr 20 11:33:21 2022 +0800

    fix fbank_pitch issue

commit 835033c70cb2821340481b6e3f695d3afe6cbcd0
Merge: fcf13c412 42eb3108a
Author: Roshan S Sharma <36464960+roshansh-cmu@users.noreply.github.com>
Date:   Tue Apr 19 07:36:09 2022 -0400

    Merge branch 'espnet:master' into master

commit 70c1980b7c8d396bd5d05d8eba50bf90a84bff55
Author: D-Keqi <462975470@qq.com>
Date:   Tue Apr 19 19:01:41 2022 +0800

    fix CI

commit fabb3a1fd17b10cbcf252240e0c40243a8c2f971
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Tue Apr 19 16:39:39 2022 +0800

    update the test_integration_espnet2

commit c08e023e429ad90399f3722d825ccaa33c84b291
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Tue Apr 19 16:36:09 2022 +0800

    Update and rename tmp to path.sh

commit 838d2ecfa767585a3df0161388f5dd5de426695a
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Tue Apr 19 16:35:08 2022 +0800

    Add files via upload

commit 62162ae8938d71f0f9040ee1e27eb40c83882808
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Tue Apr 19 16:33:31 2022 +0800

    Create tmp

commit 9a5585e282b68d44921879385f5a3796bacd1fdb
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Tue Apr 19 16:33:00 2022 +0800

    Delete t

commit 349f4ab3498bc296d46ad4b42a77fda25d5e2286
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Tue Apr 19 16:31:43 2022 +0800

    add conf

commit e3486d24210cb53491518d913df2268a2f03eded
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Tue Apr 19 16:28:12 2022 +0800

    Create t

commit 652cf1774dd442d55082652713bbadbc4b6946a6
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Tue Apr 19 16:27:47 2022 +0800

    Delete tmp

commit 48fcab7a8d8b0ad1a97798fa823d315aa7708d3d
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Tue Apr 19 16:27:12 2022 +0800

    add st1 of mini_an4

commit 1800b0be298111842ab2a3cf5f39a9ac79c3a86f
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Tue Apr 19 16:25:21 2022 +0800

    Create tmp

commit 0a1d05b61d611ca8a7b7ca1815ae089781cbdfde
Merge: 73ca6e4e4 952a70a70
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Wed Apr 13 10:20:46 2022 +0800

    Merge pull request #14 from espnet/master

    Merge the latest ESPnet

commit 73ca6e4e4baddd5f3fb6075788ed3e902021b9c8
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Thu Apr 7 17:59:52 2022 +0800

    fix ci

    fix ci

commit acd3e0acdc4d4c6eadfa531711906aa29ffb01a0
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Thu Apr 7 17:58:34 2022 +0800

    fix CI

    fix CI

commit e6da9baea12c6383282bdb716745060be5011a08
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Thu Apr 7 17:16:45 2022 +0800

    Add files via upload

commit fc45fa368bc55b92f94e9ae6f9a6953728f3c894
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Thu Apr 7 17:13:53 2022 +0800

    Delete README.md

commit 5b8c0b567f6b172e2112c5460c45e44b934478a6
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Thu Apr 7 17:13:11 2022 +0800

    Delete egs2/chime4/asr1/exp/asr_train_asr_streaming_transformer_raw_en_char/decode_asr_streamindt05_real_beamformit_2micsg_lm_lm_train_lm_en_char_valid.loss.ave_asr_model_valid.acc.ave directory

commit 87ac110aaf70e2c339bac6ed7c5b60a856acc535
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Thu Apr 7 17:10:14 2022 +0800

    streaming slu

commit 7b7fde9752cd9cd4905d642996215a158bf8d026
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Thu Apr 7 17:09:27 2022 +0800

    streaming slu

commit fcd129620bbbc063dd918b83961d568ad694e45a
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Thu Apr 7 17:08:55 2022 +0800

    streaming st

commit 17fe79ca89b496e4f9b6b4caaa2497816d4855b3
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Thu Apr 7 17:07:28 2022 +0800

    streaming st

commit 812a527bb836a2fbd12ceb6d3bcabcc728d88427
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Thu Apr 7 17:06:31 2022 +0800

    streaming st

commit e69a6d8efcd1ae57aca6315d70a20e484d360f7f
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Thu Apr 7 17:05:25 2022 +0800

    streaming st

commit e488037b8d9b3e46476874f62b095ae5b7323e19
Merge: 9fb445053 189e1593d
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Thu Apr 7 15:32:57 2022 +0800

    Merge pull request #13 from espnet/master

    Update lastest espnet

commit fcf13c412842d57cf48580dd89ff0d1fc5e6c3e0
Merge: 39700a054 c4aba12f9
Author: Roshan S Sharma <36464960+roshansh-cmu@users.noreply.github.com>
Date:   Wed Apr 6 13:35:13 2022 -0400

    Merge branch 'espnet:master' into master

commit feb28baf9dd6af564fe30920c1c6e70c2258e0de
Merge: 3e6167c51 c4aba12f9
Author: earthmanylf <411214987@qq.com>
Date:   Wed Apr 6 19:24:06 2022 +0800

    Add deep clustering end-to-end training method

commit 50269e8b4dd0696d02e5da9f70c2d7952a26f392
Author: WeiGodHorse <weigodhorse@gmail.com>
Date:   Fri Mar 25 22:58:41 2022 +0800

    fix a bug in Mandarin pypinyin_g2p_phone

commit 39700a054ac5ed718a1eb74cef9b64b2144b727c
Merge: aa706c512 14c635069
Author: Roshan S Sharma <36464960+roshansh-cmu@users.noreply.github.com>
Date:   Thu Mar 24 17:42:11 2022 -0400

    Merge branch 'espnet:master' into master

commit aa706c5122391feee57d4db121a403dfd8ea0ab0
Merge: ab2fa25af 350af365f
Author: Roshan S Sharma <36464960+roshansh-cmu@users.noreply.github.com>
Date:   Wed Mar 23 23:34:17 2022 -0400

    Merge branch 'espnet:master' into master

commit ab2fa25af6dffce3ecdf3e92adaa171d3d156d50
Merge: de5e7139b cb8181a99
Author: Roshan S Sharma <36464960+roshansh-cmu@users.noreply.github.com>
Date:   Tue Mar 8 16:03:38 2022 -0500

    Merge branch 'espnet:master' into master

commit de5e7139b65549adfcac58cb0ee23c32c50634ea
Merge: 5ef36bcae 1bac0f080
Author: Roshan S Sharma <36464960+roshansh-cmu@users.noreply.github.com>
Date:   Tue Mar 8 15:09:20 2022 -0500

    Merge branch 'espnet:master' into master

commit 5ef36bcae3fac1792ccc2aae6b7dbab715f094fe
Merge: 597cd7bd8 0c246e23c
Author: Roshan S Sharma <36464960+roshansh-cmu@users.noreply.github.com>
Date:   Tue Mar 8 13:35:27 2022 -0500

    Merge branch 'espnet:master' into master

commit 597cd7bd8a0efbe82733d19774297ab90f5c659f
Merge: 6625f9056 f16e579e2
Author: Roshan S Sharma <36464960+roshansh-cmu@users.noreply.github.com>
Date:   Mon Mar 7 21:54:06 2022 -0500

    Merge branch 'espnet:master' into master

commit 6625f9056b5087aeb13a2214c770d586c067f5e3
Merge: 5f237866b 5e070668e
Author: Roshan S Sharma <36464960+roshansh-cmu@users.noreply.github.com>
Date:   Mon Mar 7 13:35:03 2022 -0500

    Merge branch 'espnet:master' into master

commit 3e6167c51df23b7629d7830e81e8cf4ea52032fc
Author: earthmanylf <411214987@qq.com>
Date:   Mon Mar 7 20:03:31 2022 +0800

    Fixed format in some files

commit 294373a121cf0766efe623dc56b12d0990a77c93
Author: earthmanylf <411214987@qq.com>
Date:   Mon Mar 7 18:26:49 2022 +0800

    Update code and add comments in separator

commit 5f86c1104cbce4275043e11050b69191834ddbc0
Merge: 7aa90b584 6f429608b
Author: earthmanylf <411214987@qq.com>
Date:   Mon Mar 7 18:06:10 2022 +0800

    Add experiment result in egs2/wsj0_2mix/enh1/README.md; Update code in some files

commit 5f237866b360028676c7b9e903d15839cdaa0113
Merge: 66c1a798d 6f429608b
Author: Roshan S Sharma <36464960+roshansh-cmu@users.noreply.github.com>
Date:   Sun Mar 6 19:26:35 2022 -0500

    Merge branch 'espnet:master' into master

commit 66c1a798d15f531b4c4b4c1e02cfd1eda6813f92
Merge: 5c5eb0292 a04a98c98
Author: Roshan S Sharma <36464960+roshansh-cmu@users.noreply.github.com>
Date:   Thu Mar 3 18:14:47 2022 -0500

    Merge branch 'espnet:master' into master

commit 7aa90b5844ba1d0050cfd737b2a2fabe9abd5d62
Merge: 5f7e2e714 b274c4ea6
Author: earthmanylf <411214987@qq.com>
Date:   Thu Mar 3 16:20:25 2022 +0800

    Merge branch 'master' of github.com:espnet/espnet into dpclanddan

commit 5c5eb0292e28c19345fc71d456348f6353f2e2a4
Merge: bd8e400fa 9863980d2
Author: Roshan S Sharma <36464960+roshansh-cmu@users.noreply.github.com>
Date:   Wed Mar 2 12:13:35 2022 -0500

    Merge branch 'espnet:master' into master

commit bd8e400fa37ebc1b77f7a938ae9275bb18de6fe5
Merge: 58aec432d 7999009d5
Author: Roshan S Sharma <36464960+roshansh-cmu@users.noreply.github.com>
Date:   Mon Feb 28 20:37:32 2022 -0500

    Merge branch 'espnet:master' into master

commit 5f7e2e7140cc7204acecda90a6ff1d5379967da6
Merge: d3acdcc3b 637d8c333
Author: earthmanylf <411214987@qq.com>
Date:   Sun Feb 27 13:19:45 2022 +0800

    Merge branch 'master' of github.com:espnet/espnet into dpclanddan

commit d3acdcc3bd537cf3f50c8d5c4642dfc488daa656
Author: earthmanylf <411214987@qq.com>
Date:   Fri Feb 25 18:32:30 2022 +0800

    fix bugs of test_dan_separator.py

commit c54d9a4087106b56ab5ce4ec9758aeb74bca0b4c
Author: earthmanylf <411214987@qq.com>
Date:   Fri Feb 25 16:00:30 2022 +0800

    add subs to the abs_separator.py

commit c1d9be5f4f9eb32bc75fb7a8b2fe406aa997946c
Author: earthmanylf <411214987@qq.com>
Date:   Fri Feb 25 15:30:46 2022 +0800

    update for dpcl and dan

commit 58aec432d97300ec12494676a19900a08a950827
Merge: 23a537e2a 9c24b3add
Author: Roshan S Sharma <36464960+roshansh-cmu@users.noreply.github.com>
Date:   Wed Feb 23 16:17:09 2022 -0500

    Merge branch 'espnet:master' into master

commit 23a537e2ad1ee9af7e8016054208d5ce1cc572fd
Author: roshansh-cmu <roshansh@andrew.cmu.edu>
Date:   Tue Feb 22 06:50:03 2022 -0500

    black fix

commit 8572a57af47ef72e9f010601483b31eb96baf03f
Merge: 969b333d9 650472b45
Author: roshansh-cmu <roshansh@andrew.cmu.edu>
Date:   Mon Feb 21 22:35:49 2022 -0500

    Mergefix

commit ee20e18a5f0eef55c8b0709e1e6b9bcddf10e4e6
Merge: 63f88c02b a3e1543e9
Author: earthmanylf <43513215+earthmanylf@users.noreply.github.com>
Date:   Wed Feb 16 14:29:36 2022 +0800

    Merge pull request #1 from espnet/master

    Merge from upstream

commit 9fb445053f999b64350e5e7a56a1699a727ed125
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Wed Sep 15 00:30:05 2021 +0800

    Update README.md

commit 8c6d3e1614a247b78f1b17ff2c6ef3b3725b166a
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Wed Sep 15 00:29:31 2021 +0800

    Update README.md

commit 2411dbb82b08aee182df0738a47d7f6f44bdcea8
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Mon Sep 13 13:08:52 2021 +0800

    Update README.md

commit 3edc1a6d816428b3e4e099271dc51c117b9c8d3b
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Mon Sep 13 13:08:25 2021 +0800

    Update README.md

commit d4d4b7e450992867bc0ee91ffb467ec38ad6981c
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Sat Sep 11 23:11:39 2021 +0800

    Update README.md

commit 885ab0552dc26076b0b581eb88813f426179fdcb
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Sat Sep 4 10:48:05 2021 +0800

    add results

commit dfba960da5e60cd9d78c439b7fa0e400332fbe46
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Sat Sep 4 10:43:36 2021 +0800

    create exp

commit 391d7c78f310313ca78abc1b3341183a15336579
Author: D-Keqi <61508571+D-Keqi@users.noreply.github.com>
Date:   Sat Sep 4 10:40:23 2021 +0800

    steaming results
---
 .github/workflows/centos7.yml                 |   2 +-
 .github/workflows/ci.yaml                     |   6 +-
 .github/workflows/debian9.yml                 |   2 +-
 .github/workflows/test_import.yaml            |   2 +-
 .mergify.yml                                  |  10 +-
 CONTRIBUTING.md                               |  17 +-
 README.md                                     |  41 +-
 ci/install.sh                                 |   2 +-
 ci/test_integration_espnet2.sh                |  49 +-
 ci/test_python.sh                             |   9 +-
 egs/arctic/tts1/local/clean_text.py           |   1 -
 egs/chime6/asr1/local/extract_noises.py       |   5 +-
 egs/chime6/asr1/local/make_noise_list.py      |   1 -
 egs/cmu_indic/tts1/local/clean_text.py        |   1 -
 egs/covost2/st1/local/process_tsv.py          |   2 +-
 egs/csj/asr1/local/csj_rm_tag.py              |   3 +-
 egs/iwslt16/mt1/local/extract_recog_text.py   |   2 +-
 egs/iwslt16/mt1/local/generate_json.py        |   6 +-
 egs/iwslt16/mt1/local/generate_vocab.py       |   2 +-
 egs/iwslt18/st1/local/parse_xml.py            |   2 +-
 egs/iwslt21/asr1/local/filter_parentheses.py  |   1 +
 .../st1/local/data_prep.py                    |   1 -
 egs/jnas/asr1/local/filter_text.py            |   3 +-
 .../asr1/local/get_space_normalized_hyps.py   |   2 +-
 .../asr1/local/get_transcriptions.py          |   3 +-
 egs/libri_css/asr1/local/best_wer_matching.py |   3 +-
 .../asr1/local/get_perspeaker_output.py       |   2 +-
 egs/libri_css/asr1/local/prepare_data.py      |   1 +
 .../local/segmentation/apply_webrtcvad.py     |   1 +
 egs/ljspeech/tts1/local/clean_text.py         |   2 +-
 egs/lrs/avsr1/local/se_batch.py               |   5 +-
 egs/mgb2/asr1/local/process_xml.py            |   3 +-
 egs/mgb2/asr1/local/text_segmenting.py        |   1 +
 .../asr1/local/data_prep.py                   |   5 +-
 .../asr1/local/construct_dataset.py           |   1 -
 egs/puebla_nahuatl/asr1/local/data_prep.py    |   2 -
 egs/puebla_nahuatl/st1/local/data_prep.py     |   2 +-
 egs/reverb/asr1/local/filterjson.py           |   3 +-
 egs/reverb/asr1/local/run_wpe.py              |   7 +-
 egs/reverb/asr1_multich/local/filterjson.py   |   2 +-
 egs/tweb/tts1/local/clean_text.py             |   1 -
 egs/vais1000/tts1/local/clean_text.py         |   1 -
 .../tts1_en_fi/local/clean_text_css10.py      |  16 +-
 .../vc1_task1/local/clean_text_asr_result.py  |   2 +-
 .../vc1_task2/local/clean_text_finnish.py     |  20 +-
 .../vc1_task2/local/clean_text_german.py      |   3 +-
 .../vc1_task2/local/clean_text_mandarin.py    |   7 +-
 egs/vcc20/voc1/local/subset_data_dir.py       |   2 +-
 egs/voxforge/asr1/local/filter_text.py        |   3 +-
 egs/wsj/asr1/local/filtering_samples.py       |   5 +-
 egs/wsj_mix/asr1/local/merge_scp2json.py      |   2 +-
 egs/wsj_mix/asr1/local/mergejson.py           |   1 -
 .../asr1/local/data_prep.py                   |   5 +-
 egs2/README.md                                |   1 +
 egs2/TEMPLATE/asr1/asr.sh                     |  12 +-
 egs2/TEMPLATE/asr1/db.sh                      |   1 +
 .../asr1/pyscripts/audio/format_wav_scp.py    |   6 +-
 .../pyscripts/utils/convert_text_to_phn.py    |  40 +-
 .../asr1/pyscripts/utils/evaluate_f0.py       |   6 +-
 .../asr1/pyscripts/utils/evaluate_mcd.py      |   6 +-
 .../asr1/pyscripts/utils/extract_xvectors.py  |  10 +-
 .../asr1/pyscripts/utils/plot_sinc_filters.py |   5 +-
 .../asr1/pyscripts/utils/rotate_logfile.py    |  59 ++
 .../asr1/pyscripts/utils/score_intent.py      |   3 +-
 .../pyscripts/utils/score_summarization.py    |   9 +-
 .../asr1/scripts/utils/evaluate_asr.sh        |   4 +-
 .../scripts/utils/show_translation_result.sh  |  23 +-
 egs2/TEMPLATE/diar1/diar.sh                   |   8 +-
 .../diar1/pyscripts/utils/convert_rttm.py     |  13 +-
 .../diar1/pyscripts/utils/make_rttm.py        |   6 +-
 egs2/TEMPLATE/enh1/enh.sh                     |   8 +-
 egs2/TEMPLATE/enh_asr1/enh_asr.sh             |  12 +-
 .../enh_asr1/scripts/utils/show_enh_score.sh  |  85 +-
 egs2/TEMPLATE/enh_st1/enh_st.sh               |  32 +-
 egs2/TEMPLATE/mt1/mt.sh                       |  38 +-
 egs2/TEMPLATE/ssl1/hubert.sh                  | 100 +-
 egs2/TEMPLATE/ssl1/pyscripts/dump_km_label.py |   8 +-
 .../TEMPLATE/ssl1/pyscripts/feature_loader.py |   3 +-
 egs2/TEMPLATE/ssl1/pyscripts/sklearn_km.py    |  12 +-
 egs2/TEMPLATE/st1/st.sh                       | 140 ++-
 egs2/TEMPLATE/tts1/README.md                  |   6 +
 egs2/TEMPLATE/tts1/tts.sh                     |   8 +-
 .../asr1/local/remove_missing.py              |   1 -
 egs2/aishell3/tts1/local/data_prep.py         |   1 +
 .../local/generate_fe_trainingdata.py.patch   |  16 +-
 .../local/prepare_audioset_category_list.py   |   2 +-
 egs2/aishell4/enh1/local/split_train_dev.py   |  10 +-
 .../enh1/local/split_train_dev_by_column.py   |   6 +-
 .../enh1/local/split_train_dev_by_prefix.py   |   6 +-
 egs2/bn_openslr53/asr1/local/data_prep.py     |   1 -
 egs2/bur_openslr80/asr1/local/data_prep.py    |   1 -
 egs2/catslu/asr1/local/data_prep.py           |   4 +-
 ...-3_specaug_accum1_preenc128_warmup20k.yaml |  90 ++
 egs2/chime4/asr1/local/sym_channel.py         |   2 +-
 .../tuning/train_enh_convtasnet_small.yaml    |  64 ++
 egs2/chime4/enh_asr1/README.md                |  97 ++
 .../enh_2021 => chime4/enh_asr1}/cmd.sh       |   0
 egs2/chime4/enh_asr1/conf/chime4.cfg          |   1 +
 .../enh_asr1/conf/decode_asr_transformer.yaml |   7 +
 egs2/chime4/enh_asr1/conf/fbank.conf          |   2 +
 .../enh_asr1}/conf/pbs.conf                   |   0
 egs2/chime4/enh_asr1/conf/pitch.conf          |   1 +
 .../enh_asr1}/conf/queue.conf                 |   0
 .../enh_asr1}/conf/slurm.conf                 |   0
 ..._enh_asr_convtasnet_fbank_transformer.yaml |   1 +
 .../enh_asr1/conf/train_lm_transformer.yaml   |  48 +
 ...it_lr1e-4_accum1_adam_specaug_bypass0.yaml | 124 +++
 ...ormer_lr2e-3_accum2_warmup20k_specaug.yaml | 119 +++
 egs2/chime4/enh_asr1/db.sh                    |   1 +
 egs2/chime4/enh_asr1/enh_asr.sh               |   1 +
 .../CHiME3_simulate_data_patched_parallel.m   |   1 +
 .../enh_asr1/local/bth_chime4_data_prep.sh    |   1 +
 egs2/chime4/enh_asr1/local/chime4_asr_data.sh |   1 +
 egs2/chime4/enh_asr1/local/chime4_enh_data.sh |   1 +
 .../local/clean_chime4_format_data.sh         |   1 +
 .../enh_asr1/local/clean_wsj0_data_prep.sh    |   1 +
 egs2/chime4/enh_asr1/local/cstr_ndx2flist.pl  |   1 +
 egs2/chime4/enh_asr1/local/data.sh            |  89 ++
 .../enh_asr1/local/find_noisy_transcripts.pl  |   1 +
 .../chime4/enh_asr1/local/find_transcripts.pl |   1 +
 egs2/chime4/enh_asr1/local/flist2scp.pl       |   1 +
 egs2/chime4/enh_asr1/local/localize.m         |   1 +
 egs2/chime4/enh_asr1/local/make_stft.sh       |   1 +
 egs2/chime4/enh_asr1/local/ndx2flist.pl       |   1 +
 .../enh_asr1/local/normalize_transcript.pl    |   1 +
 .../enh_asr1}/local/path.sh                   |   0
 .../local/real_enhan_chime4_data_prep.sh      |   1 +
 .../local/real_ext_chime4_data_prep.sh        |   1 +
 .../local/real_noisy_chime4_data_prep.sh      |   1 +
 .../enh_asr1/local/run_beamform_2ch_track.sh  |   1 +
 .../enh_asr1/local/run_beamform_6ch_track.sh  |   1 +
 .../enh_asr1/local/show_enhance_results.sh    |   1 +
 .../local/simu_enhan_chime4_data_prep.sh      |   1 +
 .../local/simu_ext_chime4_data_prep.sh        |   1 +
 .../local/simu_noisy_chime4_data_prep.sh      |   1 +
 egs2/chime4/enh_asr1/local/sym_channel.py     |   1 +
 egs2/chime4/enh_asr1/local/wsj_data_prep.sh   |   1 +
 egs2/chime4/enh_asr1/local/wsj_format_data.sh |   1 +
 egs2/chime4/enh_asr1/path.sh                  |   1 +
 egs2/chime4/enh_asr1/pyscripts                |   1 +
 egs2/chime4/enh_asr1/run.sh                   |  45 +
 egs2/chime4/enh_asr1/scripts                  |   1 +
 egs2/chime4/enh_asr1/steps                    |   1 +
 egs2/chime4/enh_asr1/utils                    |   1 +
 egs2/chime6/asr1/README.md                    |  30 +
 egs2/chime6/asr1/asr.sh                       |   1 +
 egs2/chime6/asr1/cmd.sh                       | 110 ++
 .../asr1/conf/decode_asr_transformer.yaml     |   7 +
 egs2/chime6/asr1/conf/fbank.conf              |   2 +
 egs2/chime6/asr1/conf/pbs.conf                |  11 +
 egs2/chime6/asr1/conf/pitch.conf              |   1 +
 egs2/chime6/asr1/conf/queue.conf              |  12 +
 egs2/chime6/asr1/conf/slurm.conf              |  14 +
 egs2/chime6/asr1/conf/train_lm.yaml           |  16 +
 ...-3_specaug_accum1_preenc128_warmup20k.yaml |  87 ++
 .../{clarity21/enh_2021 => chime6/asr1}/db.sh |   0
 egs2/chime6/asr1/local/check_tools.sh         |   1 +
 egs2/chime6/asr1/local/data.sh                |  53 +
 egs2/chime6/asr1/local/distant_audio_list     |   1 +
 egs2/chime6/asr1/local/extract_noises.py      |   1 +
 .../chime6/asr1/local/generate_chime6_data.sh |   1 +
 egs2/chime6/asr1/local/install_pb_chime5.sh   |   1 +
 egs2/chime6/asr1/local/json2text.py           |   1 +
 egs2/chime6/asr1/local/make_noise_list.py     |   1 +
 egs2/chime6/asr1/local/path.sh                |   0
 .../local/prepare_baseline_chime6_data.sh     |   1 +
 egs2/chime6/asr1/local/prepare_data.sh        |   1 +
 egs2/chime6/asr1/local/prepare_dict.sh        |   1 +
 egs2/chime6/asr1/local/run_gss.sh             |   1 +
 egs2/chime6/asr1/local/train_lms_srilm.sh     |   1 +
 egs2/chime6/asr1/local/wer_output_filter      |   1 +
 egs2/chime6/asr1/path.sh                      |   1 +
 .../enh_2021 => chime6/asr1}/pyscripts        |   0
 egs2/chime6/asr1/run.sh                       |  44 +
 .../enh_2021 => chime6/asr1}/scripts          |   0
 egs2/chime6/asr1/steps                        |   1 +
 egs2/chime6/asr1/utils                        |   1 +
 egs2/clarity21/{enh_2021 => enh1}/README.md   |   0
 egs2/clarity21/enh1/cmd.sh                    | 110 ++
 egs2/clarity21/enh1/conf/pbs.conf             |  11 +
 egs2/clarity21/enh1/conf/queue.conf           |  12 +
 egs2/clarity21/enh1/conf/slurm.conf           |  14 +
 .../tuning/train_enh_beamformer_mvdr.yaml     |   0
 egs2/clarity21/enh1/db.sh                     |   1 +
 egs2/clarity21/{enh_2021 => enh1}/enh.sh      |   0
 .../{enh_2021 => enh1}/local/data.sh          |   0
 egs2/clarity21/enh1/local/path.sh             |   0
 .../{enh_2021 => enh1}/local/prep_data.py     |   1 -
 egs2/clarity21/{enh_2021 => enh1}/path.sh     |   0
 egs2/clarity21/enh1/pyscripts                 |   1 +
 egs2/clarity21/{enh_2021 => enh1}/run.sh      |   0
 egs2/clarity21/enh1/scripts                   |   1 +
 egs2/clarity21/{enh_2021 => enh1}/steps       |   0
 egs2/clarity21/{enh_2021 => enh1}/utils       |   0
 .../enh1/local/prepare_dev_data.py            |   2 +-
 egs2/covost2/st1/conf/fbank.conf              |   2 +-
 egs2/covost2/st1/conf/pitch.conf              |   2 +-
 egs2/covost2/st1/run.sh                       |   8 +-
 .../dirha_wsj/asr1/local/prepare_dirha_wsj.py |   4 +-
 egs2/dsing/asr1/local/data_prep.py            |   8 +-
 .../st1/conf/decode_streaming_st.yaml         |   5 +
 .../st1/conf/train_st_streaming.yaml          |  95 ++
 egs2/fisher_callhome_spanish/st1/run.sh       |   1 +
 .../conf/train_asr_streaming_transformer.yaml |  58 ++
 egs2/fsc/asr1/local/data_prep.py              |   1 +
 egs2/fsc/asr1/run.sh                          |   2 +-
 egs2/fsc_challenge/asr1/local/data_prep.py    |   3 +-
 egs2/fsc_challenge/asr1/run.sh                |   2 +-
 egs2/fsc_unseen/asr1/local/data_prep.py       |   3 +-
 egs2/fsc_unseen/asr1/run.sh                   |   2 +-
 egs2/grabo/asr1/local/data_prep.py            |   5 +-
 egs2/grabo/asr1/local/score.py                |   2 +-
 egs2/indic_speech/tts1/local/data_prep.py     |   1 -
 egs2/iwslt14/mt1/run.sh                       |   4 +-
 .../asr1/local/prepare_alffa_data.py          |   2 +-
 .../asr1/local/prepare_iwslt_data.py          |   1 +
 egs2/iwslt22_dialect/asr1/local/preprocess.py |   6 +-
 egs2/iwslt22_dialect/st1/local/preprocess.py  |   6 +-
 egs2/jdcinal/asr1/local/score.py              |   1 +
 egs2/jkac/tts1/local/prep_segments.py         |   3 +-
 egs2/jmd/tts1/local/clean_text.py             |   1 -
 egs2/jtubespeech/tts1/local/prune.py          |   7 +-
 egs2/jtubespeech/tts1/local/split.py          |   7 +-
 egs2/jv_openslr35/asr1/local/data_prep.py     |   1 -
 .../asr1/local/get_space_normalized_hyps.py   |   2 +-
 .../asr1/local/get_transcriptions.py          |   3 +-
 egs2/kss/tts1/conf/tuning/train_jets.yaml     | 218 ++++
 .../diar1/local/prepare_diarization.py        |   2 +-
 .../ljspeech/tts1/conf/tuning/train_jets.yaml | 218 ++++
 .../local/feature_extract/cvtransforms.py     |   1 +
 .../feature_extract/extract_visual_feature.py |   4 +-
 .../feature_extract/models/pretrained.py      |   3 +-
 .../local/feature_extract/video_processing.py |   6 +-
 egs2/lrs3/asr1/local/data_prep.py             |   7 +-
 egs2/mediaspeech/asr1/local/data_prep.py      |   9 +-
 egs2/microsoft_speech/asr1/local/process.py   |   6 +-
 egs2/mini_an4/st1/cmd.sh                      | 110 ++
 egs2/mini_an4/st1/conf/fbank.conf             |   2 +
 egs2/mini_an4/st1/conf/pbs.conf               |  11 +
 egs2/mini_an4/st1/conf/pitch.conf             |   1 +
 egs2/mini_an4/st1/conf/queue.conf             |  12 +
 egs2/mini_an4/st1/conf/slurm.conf             |  14 +
 egs2/mini_an4/st1/conf/train_st.yaml          |   6 +
 .../mini_an4/st1/conf/train_st_streaming.yaml |   9 +
 egs2/mini_an4/st1/db.sh                       |   1 +
 egs2/mini_an4/st1/downloads.tar.gz            |   1 +
 egs2/mini_an4/st1/local/data.sh               |  85 ++
 egs2/mini_an4/st1/local/data_prep.py          |   1 +
 egs2/mini_an4/st1/local/download_and_untar.sh |   1 +
 egs2/mini_an4/st1/local/path.sh               |   0
 egs2/mini_an4/st1/path.sh                     |   1 +
 egs2/mini_an4/st1/pyscripts                   |   1 +
 egs2/mini_an4/st1/run.sh                      |  29 +
 egs2/mini_an4/st1/scripts                     |   1 +
 egs2/mini_an4/st1/st.sh                       |   1 +
 egs2/mini_an4/st1/steps                       |   1 +
 egs2/mini_an4/st1/utils                       |   1 +
 .../diar1/local/simulation/make_mixture.py    |   5 +-
 .../simulation/make_mixture_nooverlap.py      |   5 +-
 .../diar1/local/simulation/random_mixture.py  |   7 +-
 .../simulation/random_mixture_nooverlap.py    |   7 +-
 egs2/misp2021/asr1/local/find_wav.py          |   6 +-
 egs2/misp2021/asr1/local/prepare_far_data.py  |   8 +-
 egs2/misp2021/asr1/local/run_beamformit.py    |   2 +-
 egs2/misp2021/asr1/local/run_wpe.py           |   9 +-
 .../avsr1/local/concatenate_feature.py        |   5 +-
 egs2/misp2021/avsr1/local/find_wav.py         |   6 +-
 egs2/misp2021/avsr1/local/prepare_far_data.py |   8 +-
 .../avsr1/local/prepare_far_video_roi.py      |  11 +-
 .../prepare_visual_embedding_extractor.py     |   5 +-
 egs2/misp2021/avsr1/local/run_beamformit.py   |   2 +-
 egs2/misp2021/avsr1/local/run_wpe.py          |   9 +-
 egs2/ml_openslr63/asr1/local/data_prep.py     |   1 -
 egs2/mr_openslr64/asr1/local/data_prep.py     |   1 -
 egs2/ms_indic_18/asr1/local/prepare_data.py   |   2 +-
 egs2/open_li52/asr1/local/filter_text.py      |   3 +-
 .../asr1/local/data_prep.py                   |   9 +-
 egs2/seame/asr1/local/preprocess.py           |   8 +-
 egs2/seame/asr1/local/split_lang_trn.py       |   5 +-
 egs2/sinhala/asr1/local/data_prep.py          |   8 +-
 .../asr1/local/data_prep_slue.py              |   1 +
 egs2/slue-voxceleb/asr1/local/f1_score.py     |   6 +-
 .../asr1/local/generate_asr_files.py          |   3 +-
 .../local/data_prep_original_slue_format.py   |   3 +-
 ...ta_prep_original_slue_format_transcript.py |   3 +-
 egs2/slue-voxpopuli/asr1/local/eval_utils.py  |   5 +-
 egs2/slue-voxpopuli/asr1/local/score.py       |   4 +-
 .../conf/train_asr_streaming_transformer.yaml |  69 ++
 egs2/slurp/asr1/local/prepare_slurp_data.py   |   4 +-
 .../asr1/local/convert_to_entity_file.py      |   4 +-
 .../asr1/local/evaluation/evaluate.py         |   5 +-
 .../asr1/local/evaluation/metrics/__init__.py |   3 +-
 .../asr1/local/evaluation/metrics/distance.py |   3 +-
 .../asr1/local/evaluation/util.py             |   5 +-
 .../asr1/local/prepare_slurp_data.py          |   4 +-
 .../asr1/local/prepare_slurp_entity_data.py   |   4 +-
 egs2/snips/asr1/local/data_prep.py            |   2 +-
 .../speechcommands/asr1/local/data_prep_12.py |   8 +-
 .../speechcommands/asr1/local/data_prep_35.py |   4 +-
 egs2/speechcommands/asr1/local/score.py       |   2 +-
 .../asr1/local/sunda_data_prep.py             |   1 -
 .../asr1/local/prepare_sentiment.py           |   4 +-
 egs2/swbd_sentiment/asr1/local/score_f1.py    |   3 +-
 egs2/totonac/asr1/local/data_prep.py          |   5 +-
 egs2/wenetspeech/asr1/local/extract_meta.py   |   4 +-
 egs2/wenetspeech/asr1/local/process_opus.py   |   5 +-
 egs2/wsj0_2mix/enh1/README.md                 |  59 ++
 .../enh1/conf/tuning/train_enh_dan_tf.yaml    |  65 ++
 .../enh1/conf/tuning/train_enh_dpcl.yaml      |  62 ++
 .../enh1/conf/tuning/train_enh_dpcl_e2e.yaml  |  66 ++
 .../enh1/conf/tuning/train_enh_mdc.yaml       |  62 ++
 .../asr1/local/filter_text.py                 |   3 +-
 egs2/zh_openslr38/asr1/local/data_split.py    |   4 +-
 espnet/asr/asr_utils.py                       |   1 -
 espnet/asr/chainer_backend/asr.py             |  38 +-
 espnet/asr/pytorch_backend/asr.py             |  52 +-
 espnet/asr/pytorch_backend/asr_init.py        |   6 +-
 espnet/asr/pytorch_backend/asr_mix.py         |  44 +-
 espnet/asr/pytorch_backend/recog.py           |  15 +-
 espnet/bin/asr_align.py                       |  21 +-
 espnet/bin/asr_enhance.py                     |   4 +-
 espnet/bin/asr_recog.py                       |   2 +-
 espnet/bin/mt_trans.py                        |   2 +-
 espnet/bin/tts_decode.py                      |   3 +-
 espnet/bin/vc_decode.py                       |   3 +-
 espnet/lm/chainer_backend/extlm.py            |   1 +
 espnet/lm/chainer_backend/lm.py               |  30 +-
 espnet/lm/lm_utils.py                         |  10 +-
 espnet/lm/pytorch_backend/lm.py               |  42 +-
 espnet/mt/pytorch_backend/mt.py               |  39 +-
 espnet/nets/batch_beam_search.py              |   9 +-
 espnet/nets/batch_beam_search_online.py       |  22 +-
 espnet/nets/batch_beam_search_online_sim.py   |   3 +-
 espnet/nets/beam_search.py                    |  12 +-
 espnet/nets/beam_search_transducer.py         |  22 +-
 espnet/nets/chainer_backend/ctc.py            |   2 +-
 .../chainer_backend/deterministic_embed_id.py |  10 +-
 espnet/nets/chainer_backend/e2e_asr.py        |   2 +-
 .../chainer_backend/e2e_asr_transformer.py    |  24 +-
 espnet/nets/chainer_backend/rnn/attentions.py |   1 -
 espnet/nets/chainer_backend/rnn/decoders.py   |   6 +-
 espnet/nets/chainer_backend/rnn/encoders.py   |   3 +-
 espnet/nets/chainer_backend/rnn/training.py   |  17 +-
 .../chainer_backend/transformer/attention.py  |   2 -
 .../chainer_backend/transformer/decoder.py    |   4 +-
 .../transformer/decoder_layer.py              |   3 +-
 .../chainer_backend/transformer/embedding.py  |   1 -
 .../chainer_backend/transformer/encoder.py    |  13 +-
 .../transformer/encoder_layer.py              |   3 +-
 .../transformer/label_smoothing_loss.py       |   1 -
 .../transformer/positionwise_feed_forward.py  |   2 -
 .../transformer/subsampling.py                |   7 +-
 .../chainer_backend/transformer/training.py   |  12 +-
 espnet/nets/ctc_prefix_score.py               |   3 +-
 espnet/nets/e2e_asr_common.py                 |   2 +-
 .../pytorch_backend/conformer/argument.py     |   2 +-
 .../contextual_block_encoder_layer.py         |   3 +-
 .../nets/pytorch_backend/conformer/encoder.py |  23 +-
 .../conformer/encoder_layer.py                |   1 -
 espnet/nets/pytorch_backend/ctc.py            |   8 +-
 espnet/nets/pytorch_backend/e2e_asr.py        |  32 +-
 .../nets/pytorch_backend/e2e_asr_conformer.py |   8 +-
 .../nets/pytorch_backend/e2e_asr_maskctc.py   |  20 +-
 espnet/nets/pytorch_backend/e2e_asr_mix.py    |  30 +-
 .../e2e_asr_mix_transformer.py                |   8 +-
 espnet/nets/pytorch_backend/e2e_asr_mulenc.py |  17 +-
 .../pytorch_backend/e2e_asr_transducer.py     |  42 +-
 .../pytorch_backend/e2e_asr_transformer.py    |  42 +-
 espnet/nets/pytorch_backend/e2e_mt.py         |  14 +-
 .../pytorch_backend/e2e_mt_transformer.py     |  23 +-
 espnet/nets/pytorch_backend/e2e_st.py         |  31 +-
 .../nets/pytorch_backend/e2e_st_conformer.py  |   8 +-
 .../pytorch_backend/e2e_st_transformer.py     |  27 +-
 .../pytorch_backend/e2e_tts_fastspeech.py     |  28 +-
 .../nets/pytorch_backend/e2e_tts_tacotron2.py |   7 +-
 .../pytorch_backend/e2e_tts_transformer.py    |  25 +-
 .../nets/pytorch_backend/e2e_vc_tacotron2.py  |  16 +-
 .../pytorch_backend/e2e_vc_transformer.py     |  28 +-
 .../frontends/dnn_beamformer.py               |  10 +-
 .../nets/pytorch_backend/frontends/dnn_wpe.py |   2 +-
 .../frontends/feature_transform.py            |   4 +-
 .../pytorch_backend/frontends/frontend.py     |   5 +-
 .../frontends/mask_estimator.py               |   3 +-
 espnet/nets/pytorch_backend/lm/default.py     |   6 +-
 espnet/nets/pytorch_backend/lm/transformer.py |   6 +-
 espnet/nets/pytorch_backend/nets_utils.py     |   3 +-
 espnet/nets/pytorch_backend/rnn/attentions.py |   5 +-
 espnet/nets/pytorch_backend/rnn/decoders.py   |  20 +-
 espnet/nets/pytorch_backend/rnn/encoders.py   |  14 +-
 espnet/nets/pytorch_backend/tacotron2/cbhg.py |   4 +-
 .../nets/pytorch_backend/tacotron2/decoder.py |   1 -
 .../nets/pytorch_backend/tacotron2/encoder.py |   7 +-
 .../pytorch_backend/transducer/arguments.py   |   2 +-
 .../nets/pytorch_backend/transducer/blocks.py |  30 +-
 .../pytorch_backend/transducer/conv1d_nets.py |   4 +-
 .../transducer/custom_decoder.py              |  23 +-
 .../transducer/custom_encoder.py              |   5 +-
 .../transducer/error_calculator.py            |   4 +-
 .../pytorch_backend/transducer/initializer.py |   2 +-
 .../pytorch_backend/transducer/rnn_decoder.py |  15 +-
 .../pytorch_backend/transducer/rnn_encoder.py |  11 +-
 .../transducer/transducer_tasks.py            |  11 +-
 .../transducer/transformer_decoder_layer.py   |   2 +-
 .../nets/pytorch_backend/transducer/utils.py  |   9 +-
 .../nets/pytorch_backend/transducer/vgg2l.py  |   3 +-
 .../contextual_block_encoder_layer.py         |   1 -
 .../pytorch_backend/transformer/decoder.py    |   7 +-
 .../transformer/dynamic_conv.py               |   3 +-
 .../transformer/dynamic_conv2d.py             |   3 +-
 .../pytorch_backend/transformer/embedding.py  |   1 +
 .../pytorch_backend/transformer/encoder.py    |  17 +-
 .../transformer/encoder_layer.py              |   1 -
 .../pytorch_backend/transformer/lightconv.py  |   3 +-
 .../transformer/lightconv2d.py                |   3 +-
 .../transformer/longformer_attention.py       |   3 +-
 .../nets/pytorch_backend/transformer/plot.py  |   2 +-
 .../transformer/subsampling.py                |   4 +-
 .../transformer/subsampling_without_posenc.py |   1 +
 espnet/nets/pytorch_backend/wavenet.py        |   1 -
 espnet/nets/scorer_interface.py               |   6 +-
 espnet/nets/scorers/ctc.py                    |   3 +-
 espnet/nets/scorers/length_bonus.py           |   4 +-
 espnet/nets/scorers/ngram.py                  |   3 +-
 espnet/nets/transducer_decoder_interface.py   |   7 +-
 espnet/nets/tts_interface.py                  |   1 -
 espnet/optimizer/chainer.py                   |   4 +-
 espnet/optimizer/pytorch.py                   |   4 +-
 espnet/st/pytorch_backend/st.py               |  40 +-
 espnet/transform/transformation.py            |   7 +-
 espnet/tts/pytorch_backend/tts.py             |  24 +-
 espnet/utils/cli_utils.py                     |   2 +-
 espnet/utils/io_utils.py                      |   2 +-
 espnet/utils/training/iterators.py            |   7 +-
 espnet/utils/training/train_utils.py          |   3 +-
 espnet/vc/pytorch_backend/vc.py               |  24 +-
 espnet2/asr/decoder/abs_decoder.py            |   3 +-
 espnet2/asr/decoder/mlm_decoder.py            |   4 +-
 espnet2/asr/decoder/rnn_decoder.py            |   5 +-
 espnet2/asr/decoder/transformer_decoder.py    |   9 +-
 espnet2/asr/encoder/abs_encoder.py            |   6 +-
 espnet2/asr/encoder/conformer_encoder.py      |  51 +-
 .../contextual_block_conformer_encoder.py     |  34 +-
 .../contextual_block_transformer_encoder.py   |  25 +-
 espnet2/asr/encoder/hubert_encoder.py         |  17 +-
 espnet2/asr/encoder/longformer_encoder.py     |  43 +-
 espnet2/asr/encoder/rnn_encoder.py            |   9 +-
 espnet2/asr/encoder/transformer_encoder.py    |  30 +-
 espnet2/asr/encoder/vgg_rnn_encoder.py        |   6 +-
 espnet2/asr/encoder/wav2vec2_encoder.py       |   7 +-
 espnet2/asr/espnet_model.py                   |  24 +-
 espnet2/asr/frontend/abs_frontend.py          |   3 +-
 espnet2/asr/frontend/default.py               |   6 +-
 espnet2/asr/frontend/fused.py                 |  10 +-
 espnet2/asr/frontend/s3prl.py                 |  10 +-
 espnet2/asr/frontend/windowing.py             |   6 +-
 espnet2/asr/maskctc_model.py                  |  32 +-
 espnet2/asr/postencoder/abs_postencoder.py    |   3 +-
 .../hugging_face_transformers_postencoder.py  |  11 +-
 espnet2/asr/preencoder/abs_preencoder.py      |   3 +-
 espnet2/asr/preencoder/linear.py              |   5 +-
 espnet2/asr/preencoder/sinc.py                |  11 +-
 espnet2/asr/specaug/abs_specaug.py            |   3 +-
 espnet2/asr/specaug/specaug.py                |   7 +-
 .../asr/transducer/beam_search_transducer.py  |  18 +-
 espnet2/asr/transducer/error_calculator.py    |   3 +-
 espnet2/asr/transducer/transducer_decoder.py  |  10 +-
 espnet2/bin/aggregate_stats_dirs.py           |   5 +-
 espnet2/bin/asr_align.py                      |  32 +-
 espnet2/bin/asr_inference.py                  | 107 +-
 espnet2/bin/asr_inference_k2.py               |  19 +-
 espnet2/bin/asr_inference_maskctc.py          |  22 +-
 espnet2/bin/asr_inference_streaming.py        | 143 ++-
 espnet2/bin/diar_inference.py                 |  23 +-
 espnet2/bin/enh_inference.py                  |  20 +-
 espnet2/bin/enh_scoring.py                    |  10 +-
 espnet2/bin/launch.py                         |   5 +-
 espnet2/bin/lm_calc_perplexity.py             |  14 +-
 espnet2/bin/mt_inference.py                   |  29 +-
 espnet2/bin/split_scps.py                     |   7 +-
 espnet2/bin/st_inference.py                   |  29 +-
 espnet2/bin/st_inference_streaming.py         | 611 ++++++++++++
 espnet2/bin/tokenize_text.py                  |  12 +-
 espnet2/bin/tts_inference.py                  |  19 +-
 espnet2/diar/abs_diar.py                      |   3 +-
 espnet2/diar/attractor/abs_attractor.py       |   3 +-
 espnet2/diar/decoder/abs_decoder.py           |   3 +-
 espnet2/diar/espnet_model.py                  |  10 +-
 espnet2/enh/abs_enh.py                        |   3 +-
 espnet2/enh/decoder/abs_decoder.py            |   3 +-
 espnet2/enh/decoder/stft_decoder.py           |   4 +-
 espnet2/enh/encoder/abs_encoder.py            |   3 +-
 espnet2/enh/encoder/stft_encoder.py           |   4 +-
 espnet2/enh/espnet_enh_s2t_model.py           |  13 +-
 espnet2/enh/espnet_model.py                   |  27 +-
 espnet2/enh/layers/beamformer.py              |  33 +-
 espnet2/enh/layers/complex_utils.py           |  11 +-
 espnet2/enh/layers/dc_crn.py                  |   3 +-
 espnet2/enh/layers/dnn_beamformer.py          |  46 +-
 espnet2/enh/layers/dnn_wpe.py                 |   8 +-
 espnet2/enh/layers/dprnn.py                   |   3 +-
 espnet2/enh/layers/ifasnet.py                 |   3 +-
 espnet2/enh/layers/mask_estimator.py          |  13 +-
 espnet2/enh/layers/skim.py                    |   4 +-
 espnet2/enh/layers/wpe.py                     |  12 +-
 espnet2/enh/loss/criterions/abs_loss.py       |   4 +-
 espnet2/enh/loss/criterions/tf_domain.py      | 112 ++-
 espnet2/enh/loss/criterions/time_domain.py    |   3 +-
 espnet2/enh/loss/wrappers/abs_wrapper.py      |   7 +-
 espnet2/enh/loss/wrappers/dpcl_solver.py      |  32 +
 espnet2/enh/loss/wrappers/pit_solver.py       |  11 +-
 espnet2/enh/separator/abs_separator.py        |   6 +-
 espnet2/enh/separator/asteroid_models.py      |  12 +-
 espnet2/enh/separator/conformer_separator.py  |  22 +-
 espnet2/enh/separator/dan_separator.py        | 165 +++
 espnet2/enh/separator/dc_crn_separator.py     |  17 +-
 espnet2/enh/separator/dccrn_separator.py      |  27 +-
 espnet2/enh/separator/dpcl_e2e_separator.py   | 182 ++++
 espnet2/enh/separator/dpcl_separator.py       | 138 +++
 espnet2/enh/separator/dprnn_separator.py      |  20 +-
 espnet2/enh/separator/fasnet_separator.py     |  15 +-
 espnet2/enh/separator/neural_beamformer.py    |  11 +-
 espnet2/enh/separator/rnn_separator.py        |  18 +-
 espnet2/enh/separator/skim_separator.py       |  11 +-
 espnet2/enh/separator/svoice_separator.py     |  15 +-
 espnet2/enh/separator/tcn_separator.py        |  16 +-
 .../enh/separator/transformer_separator.py    |  29 +-
 espnet2/fileio/datadir_writer.py              |   5 +-
 espnet2/fileio/read_text.py                   |   4 +-
 espnet2/fileio/rttm.py                        |   7 +-
 espnet2/fst/lm_rescore.py                     |   5 +-
 espnet2/gan_tts/abs_gan_tts.py                |   7 +-
 espnet2/gan_tts/espnet_model.py               |   9 +-
 espnet2/gan_tts/hifigan/__init__.py           |  23 +-
 espnet2/gan_tts/hifigan/hifigan.py            |   6 +-
 espnet2/gan_tts/hifigan/loss.py               |   5 +-
 espnet2/gan_tts/hifigan/residual_block.py     |   4 +-
 espnet2/gan_tts/jets/__init__.py              |   1 +
 espnet2/gan_tts/jets/alignments.py            | 165 +++
 espnet2/gan_tts/jets/generator.py             | 788 +++++++++++++++
 espnet2/gan_tts/jets/jets.py                  | 651 ++++++++++++
 espnet2/gan_tts/jets/length_regulator.py      |  63 ++
 espnet2/gan_tts/jets/loss.py                  | 212 ++++
 espnet2/gan_tts/joint/joint_text2wav.py       |  43 +-
 espnet2/gan_tts/melgan/melgan.py              |   5 +-
 espnet2/gan_tts/melgan/pqmf.py                |   1 -
 espnet2/gan_tts/melgan/residual_stack.py      |   3 +-
 espnet2/gan_tts/parallel_wavegan/__init__.py  |   8 +-
 .../parallel_wavegan/parallel_wavegan.py      |   9 +-
 espnet2/gan_tts/parallel_wavegan/upsample.py  |   5 +-
 espnet2/gan_tts/style_melgan/style_melgan.py  |   6 +-
 espnet2/gan_tts/vits/duration_predictor.py    |  13 +-
 espnet2/gan_tts/vits/flow.py                  |   5 +-
 espnet2/gan_tts/vits/generator.py             |   7 +-
 .../gan_tts/vits/monotonic_align/__init__.py  |   4 +-
 espnet2/gan_tts/vits/monotonic_align/setup.py |   7 +-
 espnet2/gan_tts/vits/posterior_encoder.py     |   7 +-
 espnet2/gan_tts/vits/residual_coupling.py     |   4 +-
 espnet2/gan_tts/vits/text_encoder.py          |   1 -
 espnet2/gan_tts/vits/transform.py             |   4 +-
 espnet2/gan_tts/vits/vits.py                  |  67 +-
 espnet2/gan_tts/wavenet/residual_block.py     |   4 +-
 espnet2/gan_tts/wavenet/wavenet.py            |   4 +-
 espnet2/hubert/espnet_model.py                |  13 +-
 espnet2/hubert/hubert_loss.py                 |   2 +-
 espnet2/iterators/abs_iter_factory.py         |   3 +-
 espnet2/iterators/chunk_iter_factory.py       |   8 +-
 espnet2/iterators/multiple_iter_factory.py    |   4 +-
 espnet2/iterators/sequence_iter_factory.py    |   4 +-
 espnet2/layers/abs_normalize.py               |   3 +-
 espnet2/layers/global_mvn.py                  |   5 +-
 espnet2/layers/inversible_interface.py        |   3 +-
 espnet2/layers/label_aggregation.py           |   4 +-
 espnet2/layers/log_mel.py                     |   3 +-
 espnet2/layers/mask_along_axis.py             |   4 +-
 espnet2/layers/sinc_conv.py                   |   3 +-
 espnet2/layers/stft.py                        |  18 +-
 espnet2/layers/utterance_mvn.py               |   2 +-
 espnet2/lm/abs_model.py                       |   3 +-
 espnet2/lm/espnet_model.py                    |   6 +-
 espnet2/lm/seq_rnn_lm.py                      |   3 +-
 espnet2/lm/transformer_lm.py                  |   6 +-
 espnet2/main_funcs/average_nbest_models.py    |   7 +-
 .../main_funcs/calculate_all_attentions.py    |  37 +-
 espnet2/main_funcs/collect_stats.py           |   8 +-
 espnet2/main_funcs/pack_funcs.py              |  12 +-
 espnet2/mt/espnet_model.py                    |  24 +-
 espnet2/mt/frontend/embedding.py              |   8 +-
 espnet2/samplers/abs_sampler.py               |   6 +-
 espnet2/samplers/build_batch_sampler.py       |   9 +-
 espnet2/samplers/folded_batch_sampler.py      |   9 +-
 espnet2/samplers/length_batch_sampler.py      |   5 +-
 .../samplers/num_elements_batch_sampler.py    |   5 +-
 espnet2/samplers/sorted_batch_sampler.py      |   3 +-
 espnet2/samplers/unsorted_batch_sampler.py    |   3 +-
 espnet2/schedulers/abs_scheduler.py           |   3 +-
 espnet2/schedulers/noam_lr.py                 |   2 +-
 espnet2/st/espnet_model.py                    |  32 +-
 espnet2/tasks/abs_task.py                     |  70 +-
 espnet2/tasks/asr.py                          |  50 +-
 espnet2/tasks/diar.py                         |  14 +-
 espnet2/tasks/enh.py                          |  49 +-
 espnet2/tasks/enh_s2t.py                      |  28 +-
 espnet2/tasks/gan_tts.py                      |  44 +-
 espnet2/tasks/hubert.py                       |  19 +-
 espnet2/tasks/lm.py                           |  14 +-
 espnet2/tasks/mt.py                           |  36 +-
 espnet2/tasks/st.py                           |  45 +-
 espnet2/tasks/tts.py                          |  40 +-
 espnet2/text/abs_tokenizer.py                 |   6 +-
 espnet2/text/build_tokenizer.py               |   3 +-
 espnet2/text/char_tokenizer.py                |   6 +-
 espnet2/text/cleaner.py                       |   2 +-
 espnet2/text/phoneme_tokenizer.py             |  32 +-
 espnet2/text/sentencepiece_tokenizer.py       |   4 +-
 espnet2/text/token_id_converter.py            |   5 +-
 espnet2/text/word_tokenizer.py                |   6 +-
 espnet2/torch_utils/initialize.py             |   1 +
 espnet2/torch_utils/load_pretrained_model.py  |   6 +-
 espnet2/train/abs_espnet_model.py             |   6 +-
 espnet2/train/abs_gan_espnet_model.py         |   6 +-
 espnet2/train/class_choices.py                |   7 +-
 espnet2/train/collate_fn.py                   |   9 +-
 espnet2/train/dataset.py                      |  23 +-
 espnet2/train/gan_trainer.py                  |  22 +-
 espnet2/train/iterable_dataset.py             |   7 +-
 espnet2/train/preprocessor.py                 |  12 +-
 espnet2/train/reporter.py                     |  22 +-
 espnet2/train/trainer.py                      |  36 +-
 espnet2/tts/abs_tts.py                        |   6 +-
 espnet2/tts/espnet_model.py                   |   9 +-
 espnet2/tts/fastspeech/fastspeech.py          |  33 +-
 espnet2/tts/fastspeech2/fastspeech2.py        |  33 +-
 espnet2/tts/fastspeech2/loss.py               |   5 +-
 espnet2/tts/fastspeech2/variance_predictor.py |   1 -
 .../tts/feats_extract/abs_feats_extract.py    |   7 +-
 espnet2/tts/feats_extract/dio.py              |   9 +-
 espnet2/tts/feats_extract/energy.py           |   8 +-
 .../tts/feats_extract/linear_spectrogram.py   |   5 +-
 espnet2/tts/feats_extract/log_mel_fbank.py    |   6 +-
 espnet2/tts/feats_extract/log_spectrogram.py  |   5 +-
 espnet2/tts/gst/style_encoder.py              |   4 +-
 espnet2/tts/tacotron2/tacotron2.py            |  23 +-
 espnet2/tts/transformer/transformer.py        |  29 +-
 espnet2/tts/utils/__init__.py                 |   8 +-
 .../parallel_wavegan_pretrained_vocoder.py    |   7 +-
 espnet2/utils/griffin_lim.py                  |   7 +-
 espnet2/utils/types.py                        |   4 +-
 setup.cfg                                     |  10 +-
 setup.py                                      |   8 +-
 test/espnet2/asr/decoder/test_rnn_decoder.py  |   2 +-
 .../asr/decoder/test_transformer_decoder.py   |  20 +-
 ...st_contextual_block_transformer_encoder.py |   4 +-
 .../asr/encoder/test_longformer_encoder.py    |   3 +-
 test/espnet2/asr/frontend/test_fused.py       |   2 +-
 test/espnet2/asr/frontend/test_s3prl.py       |   5 +-
 ...t_hugging_face_transformers_postencoder.py |   2 +-
 test/espnet2/asr/preencoder/test_linear.py    |   3 +-
 test/espnet2/asr/preencoder/test_sinc.py      |   4 +-
 test/espnet2/asr/test_maskctc_model.py        |   3 +-
 test/espnet2/bin/test_aggregate_stats_dirs.py |   3 +-
 test/espnet2/bin/test_asr_align.py            |   7 +-
 test/espnet2/bin/test_asr_inference.py        | 110 +-
 test/espnet2/bin/test_asr_inference_k2.py     |   3 +-
 .../espnet2/bin/test_asr_inference_maskctc.py |   8 +-
 test/espnet2/bin/test_asr_train.py            |   3 +-
 test/espnet2/bin/test_diar_inference.py       |   4 +-
 test/espnet2/bin/test_diar_train.py           |   3 +-
 test/espnet2/bin/test_enh_inference.py        |   6 +-
 test/espnet2/bin/test_enh_s2t_train.py        |   3 +-
 test/espnet2/bin/test_enh_scoring.py          |   3 +-
 test/espnet2/bin/test_enh_train.py            |   3 +-
 test/espnet2/bin/test_hubert_train.py         |   3 +-
 test/espnet2/bin/test_lm_calc_perplexity.py   |   3 +-
 test/espnet2/bin/test_lm_train.py             |   3 +-
 test/espnet2/bin/test_pack.py                 |   3 +-
 test/espnet2/bin/test_st_inference.py         |  73 ++
 test/espnet2/bin/test_st_train.py             |  14 +
 test/espnet2/bin/test_tokenize_text.py        |   3 +-
 test/espnet2/bin/test_tts_inference.py        |   6 +-
 test/espnet2/bin/test_tts_train.py            |   3 +-
 test/espnet2/enh/decoder/test_stft_decoder.py |   1 -
 test/espnet2/enh/layers/test_complex_utils.py |  24 +-
 test/espnet2/enh/layers/test_conv_utils.py    |   3 +-
 test/espnet2/enh/layers/test_enh_layers.py    |  17 +-
 .../enh/loss/criterions/test_tf_domain.py     |  36 +-
 .../enh/loss/criterions/test_time_domain.py   |  14 +-
 .../enh/loss/wrappers/test_dpcl_solver.py     |  17 +
 .../wrappers/test_multilayer_pit_solver.py    |   1 -
 .../enh/loss/wrappers/test_pit_solver.py      |   6 +-
 test/espnet2/enh/separator/test_beamformer.py |   5 +-
 .../enh/separator/test_conformer_separator.py |   1 -
 .../enh/separator/test_dan_separator.py       | 129 +++
 .../enh/separator/test_dc_crn_separator.py    |   6 +-
 .../enh/separator/test_dccrn_separator.py     |   5 +-
 .../enh/separator/test_dpcl_e2e_separator.py  | 145 +++
 .../enh/separator/test_dpcl_separator.py      | 112 +++
 .../enh/separator/test_dprnn_separator.py     |   1 -
 .../enh/separator/test_fasnet_separator.py    |   1 -
 .../enh/separator/test_rnn_separator.py       |   1 -
 .../enh/separator/test_skim_separator.py      |   1 -
 .../enh/separator/test_svoice_separator.py    |   1 -
 .../enh/separator/test_tcn_separator.py       |   1 -
 .../separator/test_transformer_separator.py   |   1 -
 test/espnet2/enh/test_espnet_enh_s2t_model.py |   1 -
 test/espnet2/enh/test_espnet_model.py         |   9 +-
 test/espnet2/fileio/test_npy_scp.py           |   6 +-
 test/espnet2/fileio/test_read_text.py         |   3 +-
 test/espnet2/gan_tts/hifigan/test_hifigan.py  |  16 +-
 test/espnet2/gan_tts/jets/test_jets.py        | 944 ++++++++++++++++++
 .../gan_tts/joint/test_joint_text2wav.py      |   5 +-
 test/espnet2/gan_tts/melgan/test_melgan.py    |  11 +-
 .../parallel_wavegan/test_parallel_wavegan.py |  14 +-
 .../gan_tts/style_melgan/test_style_melgan.py |   9 +-
 test/espnet2/gan_tts/vits/test_generator.py   |  10 -
 test/espnet2/gan_tts/vits/test_vits.py        |  18 -
 test/espnet2/hubert/test_hubert_loss.py       |   6 +-
 .../iterators/test_chunk_iter_factory.py      |   4 +-
 test/espnet2/layers/test_sinc_filters.py      |   5 +-
 test/espnet2/lm/test_seq_rnn_lm.py            |   2 +-
 test/espnet2/lm/test_transformer_lm.py        |   2 +-
 .../test_calculate_all_attentions.py          |   4 +-
 test/espnet2/main_funcs/test_pack_funcs.py    |  10 +-
 test/espnet2/tasks/test_abs_task.py           |   4 +-
 test/espnet2/text/test_phoneme_tokenizer.py   |   2 +-
 .../text/test_sentencepiece_tokenizer.py      |   2 +-
 test/espnet2/torch_utils/test_device_funcs.py |   3 +-
 test/espnet2/train/test_collate_fn.py         |   3 +-
 test/espnet2/train/test_distributed_utils.py  |  10 +-
 test/espnet2/train/test_reporter.py           |   9 +-
 .../tts/feats_extract/test_log_mel_fbank.py   |   2 +-
 .../tts/feats_extract/test_log_spectrogram.py |   2 +-
 test/espnet2/utils/test_build_dataclass.py    |   2 +-
 test/espnet2/utils/test_sized_dict.py         |   3 +-
 test/espnet2/utils/test_types.py              |  20 +-
 test/test_asr_init.py                         |   4 +-
 test/test_batch_beam_search.py                |   9 +-
 test/test_custom_transducer.py                |  11 +-
 test/test_e2e_asr.py                          |   5 +-
 test/test_e2e_asr_conformer.py                |   1 +
 test/test_e2e_asr_maskctc.py                  |   1 +
 test/test_e2e_asr_mulenc.py                   |   2 +-
 test/test_e2e_asr_transducer.py               |  12 +-
 test/test_e2e_asr_transformer.py              |   6 +-
 test/test_e2e_compatibility.py                |   6 +-
 test/test_e2e_mt.py                           |   2 +-
 test/test_e2e_mt_transformer.py               |   1 +
 test/test_e2e_st.py                           |   2 +-
 test/test_e2e_st_conformer.py                 |   1 +
 test/test_e2e_st_transformer.py               |   1 +
 test/test_e2e_tts_fastspeech.py               |   5 +-
 test/test_e2e_tts_tacotron2.py                |   7 +-
 test/test_e2e_tts_transformer.py              |   7 +-
 test/test_e2e_vc_tacotron2.py                 |   7 +-
 test/test_e2e_vc_transformer.py               |   7 +-
 test/test_lm.py                               |   7 +-
 test/test_multi_spkrs.py                      |   4 +-
 test/test_ngram.py                            |   4 +-
 test/test_positional_encoding.py              |   9 +-
 test/test_recog.py                            |   2 +-
 test/test_scheduler.py                        |   8 +-
 test/test_sentencepiece.py                    |   1 -
 test/test_transformer_decode.py               |   1 -
 test/test_utils.py                            |   6 +-
 tools/Makefile                                |  19 +-
 tools/check_install.py                        |  10 +-
 tools/installers/install_chainer.sh           |   7 +-
 tools/installers/install_fairscale.sh         |   9 +-
 tools/installers/install_fairseq.sh           |   9 +-
 tools/installers/install_k2.sh                |  11 +-
 tools/installers/install_longformer.sh        |   9 +-
 tools/installers/install_s3prl.sh             |   9 +-
 tools/installers/install_speechbrain.sh       |   5 +-
 tools/installers/install_torch.sh             |  29 +-
 tools/installers/install_torch_optimizer.sh   |   9 +-
 tools/installers/install_warp-ctc.sh          |   9 +-
 tools/installers/install_warp-transducer.sh   |   5 +-
 utils/addjson.py                              |   1 -
 utils/apply-cmvn.py                           |   5 +-
 utils/calculate_rtf.py                        |   3 +-
 utils/compute-cmvn-stats.py                   |   3 +-
 utils/compute-fbank-feats.py                  |   4 +-
 utils/compute-stft-feats.py                   |   4 +-
 utils/convert_fbank_to_wav.py                 |   6 +-
 utils/copy-feats.py                           |   5 +-
 utils/dump-pcm.py                             |   2 +-
 utils/eval-source-separation.py               |  10 +-
 utils/eval_perm_free_error.py                 |   2 +-
 utils/feat-to-shape.py                        |   3 +-
 utils/feats2npy.py                            |   7 +-
 utils/generate_wav_from_fbank.py              |   5 +-
 utils/json2sctm.py                            |   5 +-
 utils/make_pair_json.py                       |   2 +-
 utils/mcd_calculate.py                        |   5 +-
 utils/merge_scp2json.py                       |   4 +-
 utils/spm_train                               |   1 -
 utils/text2vocabulary.py                      |   3 +-
 796 files changed, 10222 insertions(+), 3264 deletions(-)
 create mode 100755 egs2/TEMPLATE/asr1/pyscripts/utils/rotate_logfile.py
 mode change 120000 => 100755 egs2/TEMPLATE/enh_asr1/scripts/utils/show_enh_score.sh
 create mode 100644 egs2/chime4/asr1/conf/tuning/train_asr_transformer_wavlm_lr1e-3_specaug_accum1_preenc128_warmup20k.yaml
 create mode 100644 egs2/chime4/enh1/conf/tuning/train_enh_convtasnet_small.yaml
 create mode 100644 egs2/chime4/enh_asr1/README.md
 rename egs2/{clarity21/enh_2021 => chime4/enh_asr1}/cmd.sh (100%)
 create mode 120000 egs2/chime4/enh_asr1/conf/chime4.cfg
 create mode 100644 egs2/chime4/enh_asr1/conf/decode_asr_transformer.yaml
 create mode 100644 egs2/chime4/enh_asr1/conf/fbank.conf
 rename egs2/{clarity21/enh_2021 => chime4/enh_asr1}/conf/pbs.conf (100%)
 create mode 100644 egs2/chime4/enh_asr1/conf/pitch.conf
 rename egs2/{clarity21/enh_2021 => chime4/enh_asr1}/conf/queue.conf (100%)
 rename egs2/{clarity21/enh_2021 => chime4/enh_asr1}/conf/slurm.conf (100%)
 create mode 120000 egs2/chime4/enh_asr1/conf/train_enh_asr_convtasnet_fbank_transformer.yaml
 create mode 100644 egs2/chime4/enh_asr1/conf/train_lm_transformer.yaml
 create mode 100644 egs2/chime4/enh_asr1/conf/tuning/train_enh_asr_convtasnet_init_noenhloss_wavlm_transformer_init_lr1e-4_accum1_adam_specaug_bypass0.yaml
 create mode 100644 egs2/chime4/enh_asr1/conf/tuning/train_enh_asr_convtasnet_si_snr_fbank_transformer_lr2e-3_accum2_warmup20k_specaug.yaml
 create mode 120000 egs2/chime4/enh_asr1/db.sh
 create mode 120000 egs2/chime4/enh_asr1/enh_asr.sh
 create mode 120000 egs2/chime4/enh_asr1/local/CHiME3_simulate_data_patched_parallel.m
 create mode 120000 egs2/chime4/enh_asr1/local/bth_chime4_data_prep.sh
 create mode 120000 egs2/chime4/enh_asr1/local/chime4_asr_data.sh
 create mode 120000 egs2/chime4/enh_asr1/local/chime4_enh_data.sh
 create mode 120000 egs2/chime4/enh_asr1/local/clean_chime4_format_data.sh
 create mode 120000 egs2/chime4/enh_asr1/local/clean_wsj0_data_prep.sh
 create mode 120000 egs2/chime4/enh_asr1/local/cstr_ndx2flist.pl
 create mode 100755 egs2/chime4/enh_asr1/local/data.sh
 create mode 120000 egs2/chime4/enh_asr1/local/find_noisy_transcripts.pl
 create mode 120000 egs2/chime4/enh_asr1/local/find_transcripts.pl
 create mode 120000 egs2/chime4/enh_asr1/local/flist2scp.pl
 create mode 120000 egs2/chime4/enh_asr1/local/localize.m
 create mode 120000 egs2/chime4/enh_asr1/local/make_stft.sh
 create mode 120000 egs2/chime4/enh_asr1/local/ndx2flist.pl
 create mode 120000 egs2/chime4/enh_asr1/local/normalize_transcript.pl
 rename egs2/{clarity21/enh_2021 => chime4/enh_asr1}/local/path.sh (100%)
 create mode 120000 egs2/chime4/enh_asr1/local/real_enhan_chime4_data_prep.sh
 create mode 120000 egs2/chime4/enh_asr1/local/real_ext_chime4_data_prep.sh
 create mode 120000 egs2/chime4/enh_asr1/local/real_noisy_chime4_data_prep.sh
 create mode 120000 egs2/chime4/enh_asr1/local/run_beamform_2ch_track.sh
 create mode 120000 egs2/chime4/enh_asr1/local/run_beamform_6ch_track.sh
 create mode 120000 egs2/chime4/enh_asr1/local/show_enhance_results.sh
 create mode 120000 egs2/chime4/enh_asr1/local/simu_enhan_chime4_data_prep.sh
 create mode 120000 egs2/chime4/enh_asr1/local/simu_ext_chime4_data_prep.sh
 create mode 120000 egs2/chime4/enh_asr1/local/simu_noisy_chime4_data_prep.sh
 create mode 120000 egs2/chime4/enh_asr1/local/sym_channel.py
 create mode 120000 egs2/chime4/enh_asr1/local/wsj_data_prep.sh
 create mode 120000 egs2/chime4/enh_asr1/local/wsj_format_data.sh
 create mode 120000 egs2/chime4/enh_asr1/path.sh
 create mode 120000 egs2/chime4/enh_asr1/pyscripts
 create mode 100755 egs2/chime4/enh_asr1/run.sh
 create mode 120000 egs2/chime4/enh_asr1/scripts
 create mode 120000 egs2/chime4/enh_asr1/steps
 create mode 120000 egs2/chime4/enh_asr1/utils
 create mode 100644 egs2/chime6/asr1/README.md
 create mode 120000 egs2/chime6/asr1/asr.sh
 create mode 100644 egs2/chime6/asr1/cmd.sh
 create mode 100644 egs2/chime6/asr1/conf/decode_asr_transformer.yaml
 create mode 100644 egs2/chime6/asr1/conf/fbank.conf
 create mode 100644 egs2/chime6/asr1/conf/pbs.conf
 create mode 100644 egs2/chime6/asr1/conf/pitch.conf
 create mode 100644 egs2/chime6/asr1/conf/queue.conf
 create mode 100644 egs2/chime6/asr1/conf/slurm.conf
 create mode 100644 egs2/chime6/asr1/conf/train_lm.yaml
 create mode 100644 egs2/chime6/asr1/conf/tuning/train_asr_transformer_wavlm_lr1e-3_specaug_accum1_preenc128_warmup20k.yaml
 rename egs2/{clarity21/enh_2021 => chime6/asr1}/db.sh (100%)
 create mode 120000 egs2/chime6/asr1/local/check_tools.sh
 create mode 100755 egs2/chime6/asr1/local/data.sh
 create mode 120000 egs2/chime6/asr1/local/distant_audio_list
 create mode 120000 egs2/chime6/asr1/local/extract_noises.py
 create mode 120000 egs2/chime6/asr1/local/generate_chime6_data.sh
 create mode 120000 egs2/chime6/asr1/local/install_pb_chime5.sh
 create mode 120000 egs2/chime6/asr1/local/json2text.py
 create mode 120000 egs2/chime6/asr1/local/make_noise_list.py
 create mode 100644 egs2/chime6/asr1/local/path.sh
 create mode 120000 egs2/chime6/asr1/local/prepare_baseline_chime6_data.sh
 create mode 120000 egs2/chime6/asr1/local/prepare_data.sh
 create mode 120000 egs2/chime6/asr1/local/prepare_dict.sh
 create mode 120000 egs2/chime6/asr1/local/run_gss.sh
 create mode 120000 egs2/chime6/asr1/local/train_lms_srilm.sh
 create mode 120000 egs2/chime6/asr1/local/wer_output_filter
 create mode 120000 egs2/chime6/asr1/path.sh
 rename egs2/{clarity21/enh_2021 => chime6/asr1}/pyscripts (100%)
 create mode 100755 egs2/chime6/asr1/run.sh
 rename egs2/{clarity21/enh_2021 => chime6/asr1}/scripts (100%)
 create mode 120000 egs2/chime6/asr1/steps
 create mode 120000 egs2/chime6/asr1/utils
 rename egs2/clarity21/{enh_2021 => enh1}/README.md (100%)
 create mode 100644 egs2/clarity21/enh1/cmd.sh
 create mode 100644 egs2/clarity21/enh1/conf/pbs.conf
 create mode 100644 egs2/clarity21/enh1/conf/queue.conf
 create mode 100644 egs2/clarity21/enh1/conf/slurm.conf
 rename egs2/clarity21/{enh_2021 => enh1}/conf/tuning/train_enh_beamformer_mvdr.yaml (100%)
 create mode 120000 egs2/clarity21/enh1/db.sh
 rename egs2/clarity21/{enh_2021 => enh1}/enh.sh (100%)
 rename egs2/clarity21/{enh_2021 => enh1}/local/data.sh (100%)
 create mode 100644 egs2/clarity21/enh1/local/path.sh
 rename egs2/clarity21/{enh_2021 => enh1}/local/prep_data.py (99%)
 rename egs2/clarity21/{enh_2021 => enh1}/path.sh (100%)
 create mode 120000 egs2/clarity21/enh1/pyscripts
 rename egs2/clarity21/{enh_2021 => enh1}/run.sh (100%)
 create mode 120000 egs2/clarity21/enh1/scripts
 rename egs2/clarity21/{enh_2021 => enh1}/steps (100%)
 rename egs2/clarity21/{enh_2021 => enh1}/utils (100%)
 create mode 100644 egs2/fisher_callhome_spanish/st1/conf/decode_streaming_st.yaml
 create mode 100644 egs2/fisher_callhome_spanish/st1/conf/train_st_streaming.yaml
 create mode 100644 egs2/fsc/asr1/conf/train_asr_streaming_transformer.yaml
 create mode 100644 egs2/kss/tts1/conf/tuning/train_jets.yaml
 create mode 100644 egs2/ljspeech/tts1/conf/tuning/train_jets.yaml
 create mode 100755 egs2/mini_an4/st1/cmd.sh
 create mode 100755 egs2/mini_an4/st1/conf/fbank.conf
 create mode 100755 egs2/mini_an4/st1/conf/pbs.conf
 create mode 100755 egs2/mini_an4/st1/conf/pitch.conf
 create mode 100755 egs2/mini_an4/st1/conf/queue.conf
 create mode 100755 egs2/mini_an4/st1/conf/slurm.conf
 create mode 100644 egs2/mini_an4/st1/conf/train_st.yaml
 create mode 100644 egs2/mini_an4/st1/conf/train_st_streaming.yaml
 create mode 120000 egs2/mini_an4/st1/db.sh
 create mode 120000 egs2/mini_an4/st1/downloads.tar.gz
 create mode 100755 egs2/mini_an4/st1/local/data.sh
 create mode 120000 egs2/mini_an4/st1/local/data_prep.py
 create mode 120000 egs2/mini_an4/st1/local/download_and_untar.sh
 create mode 100755 egs2/mini_an4/st1/local/path.sh
 create mode 120000 egs2/mini_an4/st1/path.sh
 create mode 120000 egs2/mini_an4/st1/pyscripts
 create mode 100755 egs2/mini_an4/st1/run.sh
 create mode 120000 egs2/mini_an4/st1/scripts
 create mode 120000 egs2/mini_an4/st1/st.sh
 create mode 120000 egs2/mini_an4/st1/steps
 create mode 120000 egs2/mini_an4/st1/utils
 create mode 100644 egs2/slurp/asr1/conf/train_asr_streaming_transformer.yaml
 create mode 100644 egs2/wsj0_2mix/enh1/conf/tuning/train_enh_dan_tf.yaml
 create mode 100644 egs2/wsj0_2mix/enh1/conf/tuning/train_enh_dpcl.yaml
 create mode 100644 egs2/wsj0_2mix/enh1/conf/tuning/train_enh_dpcl_e2e.yaml
 create mode 100644 egs2/wsj0_2mix/enh1/conf/tuning/train_enh_mdc.yaml
 create mode 100644 espnet2/bin/st_inference_streaming.py
 create mode 100644 espnet2/enh/loss/wrappers/dpcl_solver.py
 create mode 100644 espnet2/enh/separator/dan_separator.py
 create mode 100644 espnet2/enh/separator/dpcl_e2e_separator.py
 create mode 100644 espnet2/enh/separator/dpcl_separator.py
 create mode 100644 espnet2/gan_tts/jets/__init__.py
 create mode 100644 espnet2/gan_tts/jets/alignments.py
 create mode 100644 espnet2/gan_tts/jets/generator.py
 create mode 100644 espnet2/gan_tts/jets/jets.py
 create mode 100644 espnet2/gan_tts/jets/length_regulator.py
 create mode 100644 espnet2/gan_tts/jets/loss.py
 create mode 100644 test/espnet2/bin/test_st_inference.py
 create mode 100644 test/espnet2/bin/test_st_train.py
 create mode 100644 test/espnet2/enh/loss/wrappers/test_dpcl_solver.py
 create mode 100644 test/espnet2/enh/separator/test_dan_separator.py
 create mode 100644 test/espnet2/enh/separator/test_dpcl_e2e_separator.py
 create mode 100644 test/espnet2/enh/separator/test_dpcl_separator.py
 create mode 100644 test/espnet2/gan_tts/jets/test_jets.py

diff --git a/.github/workflows/centos7.yml b/.github/workflows/centos7.yml
index 94d5973e859..d365c2e4961 100644
--- a/.github/workflows/centos7.yml
+++ b/.github/workflows/centos7.yml
@@ -19,7 +19,7 @@ jobs:
         # ImportError: /lib64/libstdc++.so.6: version `CXXABI_1.3.8' not found
         # (required by /__w/espnet/espnet/tools/venv/envs/espnet/lib/python3.6/site-packages/pyworld/pyworld.cpython-36m-x86_64-linux-gnu.so)
         # NOTE(kamo): The issue doens't exist for python3.7?
-        TH_VERSION: 1.10.1
+        TH_VERSION: 1.11.0
         CHAINER_VERSION: 6.0.0
         USE_CONDA: true
         CC: /opt/rh/devtoolset-7/root/usr/bin/gcc
diff --git a/.github/workflows/ci.yaml b/.github/workflows/ci.yaml
index f1eb6fb47ae..92e0b29f582 100644
--- a/.github/workflows/ci.yaml
+++ b/.github/workflows/ci.yaml
@@ -16,19 +16,19 @@ jobs:
       matrix:
         os: [ubuntu-18.04]
         python-version: [3.7]
-        pytorch-version: [1.4.0, 1.5.1, 1.6.0, 1.7.1, 1.8.1, 1.9.1, 1.10.1]
+        pytorch-version: [1.4.0, 1.5.1, 1.6.0, 1.7.1, 1.8.1, 1.9.1, 1.10.2, 1.11.0]
         chainer-version: [6.0.0]
         # NOTE(kamo): Conda is tested by Circle-CI
         use-conda: [false]
         include:
           - os: ubuntu-20.04
             python-version: 3.8
-            pytorch-version: 1.10.1
+            pytorch-version: 1.11.0
             chainer-verssion: 6.0.0
             use-conda: false
           - os: ubuntu-20.04
             python-version: 3.9
-            pytorch-version: 1.10.1
+            pytorch-version: 1.11.0
             chainer-verssion: 6.0.0
             use-conda: false
     steps:
diff --git a/.github/workflows/debian9.yml b/.github/workflows/debian9.yml
index a29e5474ad4..79a68e8383d 100644
--- a/.github/workflows/debian9.yml
+++ b/.github/workflows/debian9.yml
@@ -15,7 +15,7 @@ jobs:
       image: debian:9
       env:
         ESPNET_PYTHON_VERSION: 3.7
-        TH_VERSION: 1.10.1
+        TH_VERSION: 1.11.0
         CHAINER_VERSION: 6.0.0
         USE_CONDA: true
         CC: gcc-6
diff --git a/.github/workflows/test_import.yaml b/.github/workflows/test_import.yaml
index ead9f587c07..1031d3e5601 100644
--- a/.github/workflows/test_import.yaml
+++ b/.github/workflows/test_import.yaml
@@ -16,7 +16,7 @@ jobs:
       matrix:
         os: [ubuntu-latest]
         python-version: [3.9]
-        pytorch-version: [1.10.1]
+        pytorch-version: [1.11.0]
     steps:
     - uses: actions/checkout@v2
     - uses: actions/cache@v1
diff --git a/.mergify.yml b/.mergify.yml
index 0304250182c..d67959e73ea 100644
--- a/.mergify.yml
+++ b/.mergify.yml
@@ -4,17 +4,17 @@ pull_request_rules:
       - "label=auto-merge"
       - "check-success=test_centos7"
       - "check-success=test_debian9"
-      - "check-success=linter_and_test (ubuntu-18.04, 3.7, 1.3.1, 6.0.0, false)"
       - "check-success=linter_and_test (ubuntu-18.04, 3.7, 1.4.0, 6.0.0, false)"
       - "check-success=linter_and_test (ubuntu-18.04, 3.7, 1.5.1, 6.0.0, false)"
       - "check-success=linter_and_test (ubuntu-18.04, 3.7, 1.6.0, 6.0.0, false)"
       - "check-success=linter_and_test (ubuntu-18.04, 3.7, 1.7.1, 6.0.0, false)"
       - "check-success=linter_and_test (ubuntu-18.04, 3.7, 1.8.1, 6.0.0, false)"
       - "check-success=linter_and_test (ubuntu-18.04, 3.7, 1.9.1, 6.0.0, false)"
-      - "check-success=linter_and_test (ubuntu-18.04, 3.7, 1.10.1, 6.0.0, false)"
-      - "check-success=linter_and_test (ubuntu-20.04, 3.8, 1.10.1, false, 6.0.0)"
-      - "check-success=linter_and_test (ubuntu-20.04, 3.9, 1.10.1, false, 6.0.0)"
-      - "check-success=test_import (ubuntu-latest, 3.9, 1.10.1)"
+      - "check-success=linter_and_test (ubuntu-18.04, 3.7, 1.10.2, 6.0.0, false)"
+      - "check-success=linter_and_test (ubuntu-18.04, 3.7, 1.11.0, 6.0.0, false)"
+      - "check-success=linter_and_test (ubuntu-20.04, 3.8, 1.11.0, false, 6.0.0)"
+      - "check-success=linter_and_test (ubuntu-20.04, 3.9, 1.11.0, false, 6.0.0)"
+      - "check-success=test_import (ubuntu-latest, 3.9, 1.11.0)"
     actions:
       merge:
         method: merge
diff --git a/CONTRIBUTING.md b/CONTRIBUTING.md
index 9036a09b66d..7a97e340c9a 100644
--- a/CONTRIBUTING.md
+++ b/CONTRIBUTING.md
@@ -64,21 +64,21 @@ To port models from zenodo using Hugging Face hub,
 1. Create a Hugging Face account - https://huggingface.co/
 2. Request to be added to espnet organisation - https://huggingface.co/espnet
 3. Go to `egs2/RECIPE/*/scripts/utils` and run `./upload_models_to_hub.sh "ZENODO_MODEL_NAME"`
-   
+
 To upload models using Huggingface-cli follow the following steps:
 You can also refer to https://huggingface.co/docs/transformers/model_sharing
 1. Create a Hugging Face account - https://huggingface.co/
-2. Request to be added to espnet organisation - https://huggingface.co/espnet 
-3. Run huggingface-cli login (You can get the token request at this step under setting > Access Tokens > espnet token  
+2. Request to be added to espnet organisation - https://huggingface.co/espnet
+3. Run huggingface-cli login (You can get the token request at this step under setting > Access Tokens > espnet token
 4. `huggingface-cli repo create your-model-name --organization espnet`
 5. `git clone https://huggingface.co/username/your-model-name` (clone this outside ESPNet to avoid issues as this a git repo)
 6. `cd your-model-name`
 7. `git lfs install`
-8. copy contents from exp diretory of your recipe into this directory (Check other models of similar task under ESPNet to confirm your directory structure) 
+8. copy contents from exp diretory of your recipe into this directory (Check other models of similar task under ESPNet to confirm your directory structure)
 9. `git add . `
 10. `git commit -m "Add model files"`
 11. `git push`
-12. Check if the inference demo on HF is running successfully to verify the upload      
+12. Check if the inference demo on HF is running successfully to verify the upload
 
 #### 1.3.3 Additional requirements for new recipe
 
@@ -91,12 +91,13 @@ to its differences.
 - If a recipe for a new corpus is proposed, you should add its name and information to:
 https://github.com/espnet/espnet/blob/master/egs/README.md if it's a ESPnet1 recipe,
 or https://github.com/espnet/espnet/blob/master/egs2/README.md + `db.sh` if it's a ESPnet2 recipe.
-   
+
 #### 1.3.4 Checklist before you submit the recipe-based PR
 
 - [ ] be careful about the name for the recipe. It is recommended to follow naming conventions of the other recipes
 - [ ] common/shared files are linked with **soft link** (see Section 1.3.3)
-- [ ] modified or new python scripts should be passed through **latest** black formating (by using python package black). The command to be executed could be `black espnet espnet2 test utils setup.py egs*/*/*/local egs2/TEMPLATE/asr1/pyscripts`
+- [ ] modified or new python scripts should be passed through **latest** black formating (by using python package black). The command to be executed could be `black espnet espnet2 test utils setup.py egs*/*/*/local egs2/TEMPLATE/*/pyscripts tools/*.py ci/*.py`
+- [ ] modified or new python scripts should be passed through **latest** isort formating (by using python package isort). The command to be executed could be `isort espnet espnet2 test utils setup.py egs*/*/*/local egs2/TEMPLATE/*/pyscripts tools/*.py ci/*.py`
 - [ ] cluster settings should be set as **default** (e.g., cmd.sh conf/slurm.conf conf/queue.conf conf/pbs.conf)
 - [ ] update `egs/README.md` or `egs2/README.md` with corresponding recipes
 - [ ] add corresponding entry in `egs2/TEMPLATE/db.sh` for a new corpus
@@ -135,7 +136,7 @@ $ pip install -e ".[test]"
 
 ### 4.1 Python
 
-Then you can run the entire test suite using [flake8](http://flake8.pycqa.org/en/latest/), [autopep8](https://github.com/hhatto/autopep8), [black](https://github.com/psf/black) and [pytest](https://docs.pytest.org/en/latest/) with [coverage](https://pytest-cov.readthedocs.io/en/latest/reporting.html) by
+Then you can run the entire test suite using [flake8](http://flake8.pycqa.org/en/latest/), [autopep8](https://github.com/hhatto/autopep8), [black](https://github.com/psf/black), [isort](https://github.com/PyCQA/isort) and [pytest](https://docs.pytest.org/en/latest/) with [coverage](https://pytest-cov.readthedocs.io/en/latest/reporting.html) by
 ``` console
 ./ci/test_python.sh
 ```
diff --git a/README.md b/README.md
index 673739104c2..21a5592b5b9 100644
--- a/README.md
+++ b/README.md
@@ -2,14 +2,15 @@
 
 # ESPnet: end-to-end speech processing toolkit
 
-|   system/pytorch ver.   |                                                         1.4.0                                                          |                                                         1.5.1                                                          |                                                         1.6.0                                                          |                                                         1.7.1                                                          |                                                         1.8.1                                                          |                                                         1.9.1                                                          |                                                                    1.10.1                                                                     |
-| :---------------------: | :--------------------------------------------------------------------------------------------------------------------: | :--------------------------------------------------------------------------------------------------------------------: | :--------------------------------------------------------------------------------------------------------------------: | :--------------------------------------------------------------------------------------------------------------------: | :--------------------------------------------------------------------------------------------------------------------: | :--------------------------------------------------------------------------------------------------------------------: | :-------------------------------------------------------------------------------------------------------------------------------------------: |
-| ubuntu20/python3.9/pip  |                                                                                                                        |                                                                                                                        |                                                                                                                        |                                                                                                                        |                                                                                                                        |                                                                                                                        |            [![Github Actions](https://github.com/espnet/espnet/workflows/CI/badge.svg)](https://github.com/espnet/espnet/actions)             |
-| ubuntu20/python3.8/pip  |                                                                                                                        |                                                                                                                        |                                                                                                                        |                                                                                                                        |                                                                                                                        |                                                                                                                        |            [![Github Actions](https://github.com/espnet/espnet/workflows/CI/badge.svg)](https://github.com/espnet/espnet/actions)             |
-| ubuntu18/python3.7/pip  | [![Github Actions](https://github.com/espnet/espnet/workflows/CI/badge.svg)](https://github.com/espnet/espnet/actions) | [![Github Actions](https://github.com/espnet/espnet/workflows/CI/badge.svg)](https://github.com/espnet/espnet/actions) | [![Github Actions](https://github.com/espnet/espnet/workflows/CI/badge.svg)](https://github.com/espnet/espnet/actions) | [![Github Actions](https://github.com/espnet/espnet/workflows/CI/badge.svg)](https://github.com/espnet/espnet/actions) | [![Github Actions](https://github.com/espnet/espnet/workflows/CI/badge.svg)](https://github.com/espnet/espnet/actions) | [![Github Actions](https://github.com/espnet/espnet/workflows/CI/badge.svg)](https://github.com/espnet/espnet/actions) |            [![Github Actions](https://github.com/espnet/espnet/workflows/CI/badge.svg)](https://github.com/espnet/espnet/actions)             |
-| debian9/python3.7/conda |                                                                                                                        |                                                                                                                        |                                                                                                                        |                                                                                                                        |                                                                                                                        |                                                                                                                        | [![debian9](https://github.com/espnet/espnet/workflows/debian9/badge.svg)](https://github.com/espnet/espnet/actions?query=workflow%3Adebian9) |
-| centos7/python3.7/conda |                                                                                                                        |                                                                                                                        |                                                                                                                        |                                                                                                                        |                                                                                                                        |                                                                                                                        | [![centos7](https://github.com/espnet/espnet/workflows/centos7/badge.svg)](https://github.com/espnet/espnet/actions?query=workflow%3Acentos7) |
-|      doc/python3.8      |                                                                                                                        |                                                                                                                        |                                                                                                                        |                                                                                                                        |                                                                                                                        |                                                                                                                        |       [![doc](https://github.com/espnet/espnet/workflows/doc/badge.svg)](https://github.com/espnet/espnet/actions?query=workflow%3Adoc)       |
+|system/pytorch ver.|1.4.0|1.5.1|1.6.0|1.7.1|1.8.1|1.9.1|1.10.2|1.11.0|
+| :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: |
+|ubuntu20/python3.9/pip||||||||[![Github Actions](https://github.com/espnet/espnet/workflows/CI/badge.svg)](https://github.com/espnet/espnet/actions)|
+|ubuntu20/python3.8/pip||||||||[![Github Actions](https://github.com/espnet/espnet/workflows/CI/badge.svg)](https://github.com/espnet/espnet/actions)|
+|ubuntu18/python3.7/pip|[![Github Actions](https://github.com/espnet/espnet/workflows/CI/badge.svg)](https://github.com/espnet/espnet/actions)|[![Github Actions](https://github.com/espnet/espnet/workflows/CI/badge.svg)](https://github.com/espnet/espnet/actions)|[![Github Actions](https://github.com/espnet/espnet/workflows/CI/badge.svg)](https://github.com/espnet/espnet/actions)|[![Github Actions](https://github.com/espnet/espnet/workflows/CI/badge.svg)](https://github.com/espnet/espnet/actions)|[![Github Actions](https://github.com/espnet/espnet/workflows/CI/badge.svg)](https://github.com/espnet/espnet/actions)|[![Github Actions](https://github.com/espnet/espnet/workflows/CI/badge.svg)](https://github.com/espnet/espnet/actions)|[![Github Actions](https://github.com/espnet/espnet/workflows/CI/badge.svg)](https://github.com/espnet/espnet/actions)|[![Github Actions](https://github.com/espnet/espnet/workflows/CI/badge.svg)](https://github.com/espnet/espnet/actions)|
+|debian9/python3.7/conda||||||||[![debian9](https://github.com/espnet/espnet/workflows/debian9/badge.svg)](https://github.com/espnet/espnet/actions?query=workflow%3Adebian9)|
+|centos7/python3.7/conda||||||||[![centos7](https://github.com/espnet/espnet/workflows/centos7/badge.svg)](https://github.com/espnet/espnet/actions?query=workflow%3Acentos7)|
+|doc/python3.8||||||||[![doc](https://github.com/espnet/espnet/workflows/doc/badge.svg)](https://github.com/espnet/espnet/actions?query=workflow%3Adoc)|
+
 
 [![PyPI version](https://badge.fury.io/py/espnet.svg)](https://badge.fury.io/py/espnet)
 [![Python Versions](https://img.shields.io/pypi/pyversions/espnet.svg)](https://pypi.org/project/espnet/)
@@ -17,7 +18,8 @@
 [![GitHub license](https://img.shields.io/github/license/espnet/espnet.svg)](https://github.com/espnet/espnet)
 [![codecov](https://codecov.io/gh/espnet/espnet/branch/master/graph/badge.svg)](https://codecov.io/gh/espnet/espnet)
 [![Code style: black](https://img.shields.io/badge/code%20style-black-000000.svg)](https://github.com/psf/black)
-[![Mergify Status](https://img.shields.io/endpoint.svg?url=https://gh.mergify.io/badges/espnet/espnet&style=flat)](https://mergify.io)
+[![Imports: isort](https://img.shields.io/badge/%20imports-isort-%231674b1?style=flat&labelColor=ef8336)](https://pycqa.github.io/isort/)
+[![Mergify Status](https://img.shields.io/endpoint.svg?url=https://api.mergify.com/v1/badges/espnet/espnet&style=flat)](https://mergify.com)
 [![Gitter](https://badges.gitter.im/espnet-en/community.svg)](https://gitter.im/espnet-en/community?utm_source=badge&utm_medium=badge&utm_campaign=pr-badge)
 
 [**Docs**](https://espnet.github.io/espnet/)
@@ -77,11 +79,11 @@ ESPnet uses [pytorch](http://pytorch.org/) as a deep learning engine and also fo
 - Self-supervised learning representations as features, using upstream models in [S3PRL](https://github.com/s3prl/s3prl) in frontend.
   - Set `frontend` to be `s3prl`
   - Select any upstream model by setting the `frontend_conf` to the corresponding name.
-- Transfer Learning : 
+- Transfer Learning :
   - easy usage and transfers from models previously trained by your group, or models from [ESPnet huggingface repository](https://huggingface.co/espnet).
   - [Documentation](https://github.com/espnet/espnet/tree/master/egs2/mini_an4/asr1/transfer_learning.md) and [toy example runnable on colab](https://github.com/espnet/notebook/blob/master/espnet2_asr_transfer_learning_demo.ipynb).
 - Streaming Transformer/Conformer ASR with blockwise synchronous beam search.
-- Restricted Self-Attention based on [Longformer](https://arxiv.org/abs/2004.05150) as an encoder for long sequences 
+- Restricted Self-Attention based on [Longformer](https://arxiv.org/abs/2004.05150) as an encoder for long sequences
 
 Demonstration
 - Real-time ASR demo with ESPnet2  [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/espnet/notebook/blob/master/espnet2_asr_realtime_demo.ipynb)
@@ -96,14 +98,15 @@ Demonstration
     - FastSpeech2
     - Conformer FastSpeech & FastSpeech2
     - VITS
+    - JETS
 - Multi-speaker & multi-language extention
-    - Pretrined speaker embedding (e.g., X-vector)
+    - Pretrained speaker embedding (e.g., X-vector)
     - Speaker ID embedding
     - Language ID embedding
     - Global style token (GST) embedding
     - Mix of the above embeddings
 - End-to-end training
-    - End-to-end text-to-wav model (e.g., VITS)
+    - End-to-end text-to-wav model (e.g., VITS, JETS, etc.)
     - Joint training of text2mel and vocoder
 - Various language support
     - En / Jp / Zn / De / Ru / And more...
@@ -125,7 +128,7 @@ To train the neural vocoder, please check the following repositories:
 
 > **NOTE**:
 > - We are moving on ESPnet2-based development for TTS.
-> - If you are beginner, we recommend using [ESPnet2-TTS](https://github.com/espnet/espnet/tree/master/egs2/TEMPLATE/tts1).
+> - The use of ESPnet1-TTS is deprecated, please use [ESPnet2-TTS](https://github.com/espnet/espnet/tree/master/egs2/TEMPLATE/tts1).
 
 ### SE: Speech enhancement (and separation)
 
@@ -133,7 +136,7 @@ To train the neural vocoder, please check the following repositories:
 - Multi-speaker speech separation
 - Unified encoder-separator-decoder structure for time-domain and frequency-domain models
   - Encoder/Decoder: STFT/iSTFT, Convolution/Transposed-Convolution
-  - Separators: BLSTM, Transformer, Conformer, [TasNet](https://arxiv.org/abs/1809.07454), [DPRNN](https://arxiv.org/abs/1910.06379), [DC-CRN](https://web.cse.ohio-state.edu/~wang.77/papers/TZW.taslp21.pdf), [DCCRN](https://arxiv.org/abs/2008.00264), Neural Beamformers, etc.
+  - Separators: BLSTM, Transformer, Conformer, [TasNet](https://arxiv.org/abs/1809.07454), [DPRNN](https://arxiv.org/abs/1910.06379), [SkiM](https://arxiv.org/abs/2201.10800), [SVoice](https://arxiv.org/abs/2011.02329), [DC-CRN](https://web.cse.ohio-state.edu/~wang.77/papers/TZW.taslp21.pdf), [DCCRN](https://arxiv.org/abs/2008.00264), [Deep Clustering](https://ieeexplore.ieee.org/document/7471631), [Deep Attractor Network](https://pubmed.ncbi.nlm.nih.gov/29430212/), [FaSNet](https://arxiv.org/abs/1909.13387), [iFaSNet](https://arxiv.org/abs/1910.14104), Neural Beamformers, etc.
 - Flexible ASR integration: working as an individual task or as the ASR frontend
 - Easy to import pretrained models from [Asteroid](https://github.com/asteroid-team/asteroid)
   - Both the pre-trained models from Asteroid and the specific configuration are supported.
@@ -577,10 +580,10 @@ We list the performance on various SLU tasks and dataset using the metric report
 | Dialogue  Act Classification                                                 |     Switchboard     |       Acc       |       67.5       |                [link](https://github.com/espnet/espnet/tree/master/egs2/swbd_da/asr1/README.md)                |
 | Dialogue  Act Classification                                                 |     Jdcinal (Jp)    |       Acc       |       67.4       |                [link](https://github.com/espnet/espnet/tree/master/egs2/jdcinal/asr1/README.md)                |
 | Emotion Recognition                                                  |     IEMOCAP     |       Acc       |       69.4       |                [link](https://github.com/espnet/espnet/tree/master/egs2/iemocap/asr1/README.md)                |
-| Emotion Recognition                                                  |     swbd_sentiment     |       Macro F1       |       61.4       |                [link](https://github.com/espnet/espnet/tree/master/egs2/swbd_sentiment/asr1/README.md)                | 
-| Emotion Recognition                                                  |     slue_voxceleb     |       Macro F1       |       44.0       |                [link](https://github.com/espnet/espnet/tree/master/egs2/slue-voxceleb/asr1/README.md)                | 
+| Emotion Recognition                                                  |     swbd_sentiment     |       Macro F1       |       61.4       |                [link](https://github.com/espnet/espnet/tree/master/egs2/swbd_sentiment/asr1/README.md)                |
+| Emotion Recognition                                                  |     slue_voxceleb     |       Macro F1       |       44.0       |                [link](https://github.com/espnet/espnet/tree/master/egs2/slue-voxceleb/asr1/README.md)                |
+
 
- 
 If you want to check the results of the other recipes, please check `egs2/<name_of_recipe>/asr1/RESULTS.md`.
 
 
@@ -735,7 +738,7 @@ See the module documentation for more information.
 It is recommended to use models with RNN-based encoders (such as BLSTMP) for aligning large audio files;
 rather than using Transformer models that have a high memory consumption on longer audio data.
 The sample rate of the audio must be consistent with that of the data used in training; adjust with `sox` if needed.
-  
+
 Also, we can use this tool to provide token-level segmentation information if we prepare a list of tokens instead of that of utterances in the `text` file. See the discussion in https://github.com/espnet/espnet/issues/4278#issuecomment-1100756463.
 
 </div></details>
diff --git a/ci/install.sh b/ci/install.sh
index 5bfed7584ad..7f8498a2a88 100755
--- a/ci/install.sh
+++ b/ci/install.sh
@@ -48,7 +48,7 @@ python3 -m pip freeze
 # Check pytorch version
 python3 <<EOF
 import torch
-from distutils.version import LooseVersion as L
+from packaging.version import parse as L
 version = '$TH_VERSION'.split(".")
 next_version = f"{version[0]}.{version[1]}.{int(version[2]) + 1}"
 
diff --git a/ci/test_integration_espnet2.sh b/ci/test_integration_espnet2.sh
index 3cf663466e7..036d2d8358e 100755
--- a/ci/test_integration_espnet2.sh
+++ b/ci/test_integration_espnet2.sh
@@ -40,13 +40,13 @@ echo "==== use_streaming, feats_type=raw, token_types=bpe, model_conf.extract_fe
     --feats_normalize "utterance_mvn" --lm-args "--max_epoch=1" --python "${python}" \
     --asr-args "--model_conf extract_feats_in_collect_stats=false --max_epoch=1 --encoder=contextual_block_transformer --decoder=transformer
                 --encoder_conf block_size=40 --encoder_conf hop_size=16 --encoder_conf look_ahead=16"
-    
+
 if python3 -c "import k2" &> /dev/null; then
     echo "==== use_k2, num_paths > nll_batch_size, feats_type=raw, token_types=bpe, model_conf.extract_feats_in_collect_stats=False, normalize=utt_mvn ==="
     ./run.sh --num_paths 500 --nll_batch_size 20 --use_k2 true --ngpu 0 --stage 12 --stop-stage 13 --skip-upload false --feats-type "raw" --token-type "bpe" \
         --feats_normalize "utterance_mvn" --lm-args "--max_epoch=1" --python "${python}" \
         --asr-args "--model_conf extract_feats_in_collect_stats=false --max_epoch=1"
-    
+
     echo "==== use_k2, num_paths == nll_batch_size, feats_type=raw, token_types=bpe, model_conf.extract_feats_in_collect_stats=False, normalize=utt_mvn ==="
     ./run.sh --num_paths 20 --nll_batch_size 20 --use_k2 true --ngpu 0 --stage 12 --stop-stage 13 --skip-upload false --feats-type "raw" --token-type "bpe" \
        --feats_normalize "utterance_mvn" --lm-args "--max_epoch=1" --python "${python}" \
@@ -68,7 +68,7 @@ rm -rf exp dump data
 # NOTE(kan-bayashi): pytorch 1.4 - 1.6 works but 1.6 has a problem with CPU,
 #   so we test this recipe using only pytorch > 1.6 here.
 #   See also: https://github.com/pytorch/pytorch/issues/42446
-if python3 -c 'import torch as t; from distutils.version import LooseVersion as L; assert L(t.__version__) > L("1.6")' &> /dev/null; then
+if python3 -c 'import torch as t; from packaging.version import parse as L; assert L(t.__version__) > L("1.6")' &> /dev/null; then
     ./run.sh --fs 22050 --tts_task gan_tts --feats_extract linear_spectrogram --feats_normalize none --inference_model latest.pth \
         --ngpu 0 --stop-stage 8 --skip-upload false --train-args "--num_iters_per_epoch 1 --max_epoch 1" --python "${python}"
     rm -rf exp dump data
@@ -76,7 +76,7 @@ fi
 cd "${cwd}"
 
 # [ESPnet2] test enh recipe
-if python -c 'import torch as t; from distutils.version import LooseVersion as L; assert L(t.__version__) >= L("1.2.0")' &> /dev/null;  then
+if python -c 'import torch as t; from packaging.version import parse as L; assert L(t.__version__) >= L("1.2.0")' &> /dev/null;  then
     cd ./egs2/mini_an4/enh1
     echo "==== [ESPnet2] ENH ==="
     ./run.sh --stage 1 --stop-stage 1 --python "${python}"
@@ -101,7 +101,7 @@ if python3 -c "import fairseq" &> /dev/null; then
 fi
 
 # [ESPnet2] test enh_asr1 recipe
-if python -c 'import torch as t; from distutils.version import LooseVersion as L; assert L(t.__version__) >= L("1.2.0")' &> /dev/null;  then
+if python -c 'import torch as t; from packaging.version import parse as L; assert L(t.__version__) >= L("1.2.0")' &> /dev/null;  then
     cd ./egs2/mini_an4/enh_asr1
     echo "==== [ESPnet2] ENH_ASR ==="
     ./run.sh --ngpu 0 --stage 0 --stop-stage 15 --skip-upload_hf false --feats-type "raw" --spk-num 1 --enh_asr_args "--max_epoch=1 --enh_separator_conf num_spk=1" --python "${python}"
@@ -110,10 +110,44 @@ if python -c 'import torch as t; from distutils.version import LooseVersion as L
     cd "${cwd}"
 fi
 
+# [ESPnet2] test st recipe
+cd ./egs2/mini_an4/st1
+echo "==== [ESPnet2] ST ==="
+./run.sh --stage 1 --stop-stage 1
+feats_types="raw fbank_pitch"
+token_types="bpe char"
+for t in ${feats_types}; do
+    ./run.sh --stage 2 --stop-stage 4 --feats-type "${t}" --python "${python}"
+done
+for t in ${token_types}; do
+    ./run.sh --stage 5 --stop-stage 5 --tgt_token_type "${t}" --src_token_type "${t}" --python "${python}"
+done
+for t in ${feats_types}; do
+    for t2 in ${token_types}; do
+        echo "==== feats_type=${t}, token_types=${t2} ==="
+        ./run.sh --ngpu 0 --stage 6 --stop-stage 13 --skip-upload false --feats-type "${t}" --tgt_token_type "${t2}" --src_token_type "${t2}" \
+            --st-args "--max_epoch=1" --lm-args "--max_epoch=1" --inference_args "--beam_size 5" --python "${python}"
+    done
+done
+echo "==== feats_type=raw, token_types=bpe, model_conf.extract_feats_in_collect_stats=False, normalize=utt_mvn ==="
+./run.sh --ngpu 0 --stage 10 --stop-stage 13 --skip-upload false --feats-type "raw" --tgt_token_type "bpe" --src_token_type "bpe" \
+    --feats_normalize "utterance_mvn" --lm-args "--max_epoch=1" --inference_args "--beam_size 5" --python "${python}" \
+    --st-args "--model_conf extract_feats_in_collect_stats=false --max_epoch=1"
+
+echo "==== use_streaming, feats_type=raw, token_types=bpe, model_conf.extract_feats_in_collect_stats=False, normalize=utt_mvn ==="
+./run.sh --use_streaming true --ngpu 0 --stage 6 --stop-stage 13 --skip-upload false --feats-type "raw" --tgt_token_type "bpe" --src_token_type "bpe" \
+    --feats_normalize "utterance_mvn" --lm-args "--max_epoch=1" --inference_args "--beam_size 5" --python "${python}" \
+    --st-args "--model_conf extract_feats_in_collect_stats=false --max_epoch=1 --encoder=contextual_block_transformer --decoder=transformer
+                --encoder_conf block_size=40 --encoder_conf hop_size=16 --encoder_conf look_ahead=16"
+
+# Remove generated files in order to reduce the disk usage
+rm -rf exp dump data
+cd "${cwd}"
+
 # [ESPnet2] Validate configuration files
 echo "<blank>" > dummy_token_list
 echo "==== [ESPnet2] Validation configuration files ==="
-if python3 -c 'import torch as t; from distutils.version import LooseVersion as L; assert L(t.__version__) >= L("1.8.0")' &> /dev/null;  then
+if python3 -c 'import torch as t; from packaging.version import parse as L; assert L(t.__version__) >= L("1.8.0")' &> /dev/null;  then
     for f in egs2/*/asr1/conf/train_asr*.yaml; do
         if [ "$f" == "egs2/fsc/asr1/conf/train_asr.yaml" ]; then
             if ! python3 -c "import s3prl" > /dev/null; then
@@ -134,6 +168,9 @@ if python3 -c 'import torch as t; from distutils.version import LooseVersion as
     for f in egs2/*/ssl1/conf/train*.yaml; do
         ${python} -m espnet2.bin.hubert_train --config "${f}" --iterator_type none --normalize none --dry_run true --output_dir out --token_list dummy_token_list
     done
+    for f in egs2/*/enh_asr1/conf/train_enh_asr*.yaml; do
+        ${python} -m espnet2.bin.enh_s2t_train --config "${f}" --iterator_type none --dry_run true --output_dir out --token_list dummy_token_list
+    done
 fi
 
 # These files must be same each other.
diff --git a/ci/test_python.sh b/ci/test_python.sh
index b3f47146198..a191944aef1 100755
--- a/ci/test_python.sh
+++ b/ci/test_python.sh
@@ -5,11 +5,16 @@
 
 set -euo pipefail
 
-modules="espnet espnet2 test utils setup.py egs*/*/*/local egs2/TEMPLATE/asr1/pyscripts"
+modules="espnet espnet2 test utils setup.py egs*/*/*/local egs2/TEMPLATE/*/pyscripts tools/*.py ci/*.py"
 
 # black
 if ! black --check ${modules}; then
-    printf 'Please apply:\n    $ black %s\n' "${modules}"
+    printf '[INFO] Please apply black:\n    $ black %s\n' "${modules}"
+    exit 1
+fi
+# isort
+if ! isort -c -v ${modules}; then
+    printf '[INFO] Please apply isort:\n    $ isort %s\n' "${modules}"
     exit 1
 fi
 
diff --git a/egs/arctic/tts1/local/clean_text.py b/egs/arctic/tts1/local/clean_text.py
index 7b14f47a61a..6fd5ce649e0 100755
--- a/egs/arctic/tts1/local/clean_text.py
+++ b/egs/arctic/tts1/local/clean_text.py
@@ -8,7 +8,6 @@
 
 from tacotron_cleaner.cleaners import custom_english_cleaners
 
-
 if __name__ == "__main__":
     parser = argparse.ArgumentParser()
     parser.add_argument("text", type=str, help="text to be cleaned")
diff --git a/egs/chime6/asr1/local/extract_noises.py b/egs/chime6/asr1/local/extract_noises.py
index 7c96666b5c9..b79e6fcaeaa 100755
--- a/egs/chime6/asr1/local/extract_noises.py
+++ b/egs/chime6/asr1/local/extract_noises.py
@@ -6,11 +6,12 @@
 import argparse
 import json
 import math
-import numpy as np
 import os
-import scipy.io.wavfile as siw
 import sys
 
+import numpy as np
+import scipy.io.wavfile as siw
+
 
 def get_args():
     parser = argparse.ArgumentParser(
diff --git a/egs/chime6/asr1/local/make_noise_list.py b/egs/chime6/asr1/local/make_noise_list.py
index 1674bb71b4d..b8f84fc3fed 100755
--- a/egs/chime6/asr1/local/make_noise_list.py
+++ b/egs/chime6/asr1/local/make_noise_list.py
@@ -7,7 +7,6 @@
 import os
 import sys
 
-
 if len(sys.argv) != 2:
     print("Usage: {} <noises-dir>".format(sys.argv[0]))
     raise SystemExit(1)
diff --git a/egs/cmu_indic/tts1/local/clean_text.py b/egs/cmu_indic/tts1/local/clean_text.py
index 7b14f47a61a..6fd5ce649e0 100755
--- a/egs/cmu_indic/tts1/local/clean_text.py
+++ b/egs/cmu_indic/tts1/local/clean_text.py
@@ -8,7 +8,6 @@
 
 from tacotron_cleaner.cleaners import custom_english_cleaners
 
-
 if __name__ == "__main__":
     parser = argparse.ArgumentParser()
     parser.add_argument("text", type=str, help="text to be cleaned")
diff --git a/egs/covost2/st1/local/process_tsv.py b/egs/covost2/st1/local/process_tsv.py
index 2c46d83df75..84609ad1f68 100755
--- a/egs/covost2/st1/local/process_tsv.py
+++ b/egs/covost2/st1/local/process_tsv.py
@@ -5,8 +5,8 @@
 
 import argparse
 import codecs
-import pandas as pd
 
+import pandas as pd
 
 parser = argparse.ArgumentParser(description="extract translation from tsv file")
 parser.add_argument("tsv_path", type=str, default=None, help="input tsv path")
diff --git a/egs/csj/asr1/local/csj_rm_tag.py b/egs/csj/asr1/local/csj_rm_tag.py
index 0a23ca59708..dfe5ba5e4f3 100755
--- a/egs/csj/asr1/local/csj_rm_tag.py
+++ b/egs/csj/asr1/local/csj_rm_tag.py
@@ -6,9 +6,8 @@
 
 import argparse
 import codecs
-from io import open
 import sys
-
+from io import open
 
 PY2 = sys.version_info[0] == 2
 sys.stdin = codecs.getreader("utf-8")(sys.stdin if PY2 else sys.stdin.buffer)
diff --git a/egs/iwslt16/mt1/local/extract_recog_text.py b/egs/iwslt16/mt1/local/extract_recog_text.py
index bf2dbdfda9e..bba75a17b9a 100755
--- a/egs/iwslt16/mt1/local/extract_recog_text.py
+++ b/egs/iwslt16/mt1/local/extract_recog_text.py
@@ -4,9 +4,9 @@
 """
 import argparse
 import glob
-from itertools import takewhile
 import json
 import os
+from itertools import takewhile
 
 
 def get_args():
diff --git a/egs/iwslt16/mt1/local/generate_json.py b/egs/iwslt16/mt1/local/generate_json.py
index 2dd4d66a098..4e81eb8d7f1 100755
--- a/egs/iwslt16/mt1/local/generate_json.py
+++ b/egs/iwslt16/mt1/local/generate_json.py
@@ -5,11 +5,9 @@
 """
 import argparse
 import json
-from logging import getLogger
 import os
-from typing import Dict
-from typing import List
-
+from logging import getLogger
+from typing import Dict, List
 
 logger = getLogger(__name__)
 
diff --git a/egs/iwslt16/mt1/local/generate_vocab.py b/egs/iwslt16/mt1/local/generate_vocab.py
index c97c4c069c5..f060d3b4aae 100755
--- a/egs/iwslt16/mt1/local/generate_vocab.py
+++ b/egs/iwslt16/mt1/local/generate_vocab.py
@@ -6,8 +6,8 @@
 format: token + whitespace + index
 """
 import argparse
-from collections import defaultdict
 import fileinput
+from collections import defaultdict
 
 
 def get_args():
diff --git a/egs/iwslt18/st1/local/parse_xml.py b/egs/iwslt18/st1/local/parse_xml.py
index e42f8e2c79e..067926ee50f 100755
--- a/egs/iwslt18/st1/local/parse_xml.py
+++ b/egs/iwslt18/st1/local/parse_xml.py
@@ -6,10 +6,10 @@
 
 import argparse
 import codecs
-from collections import OrderedDict
 import os
 import re
 import xml.etree.ElementTree as etree
+from collections import OrderedDict
 
 
 def main():
diff --git a/egs/iwslt21/asr1/local/filter_parentheses.py b/egs/iwslt21/asr1/local/filter_parentheses.py
index 8c27bf39d27..b0c77d3a314 100755
--- a/egs/iwslt21/asr1/local/filter_parentheses.py
+++ b/egs/iwslt21/asr1/local/filter_parentheses.py
@@ -7,6 +7,7 @@
 import argparse
 import codecs
 import re
+
 import regex
 
 parser = argparse.ArgumentParser()
diff --git a/egs/iwslt21_low_resource/st1/local/data_prep.py b/egs/iwslt21_low_resource/st1/local/data_prep.py
index 75153cc426f..60df7d00d8c 100644
--- a/egs/iwslt21_low_resource/st1/local/data_prep.py
+++ b/egs/iwslt21_low_resource/st1/local/data_prep.py
@@ -1,7 +1,6 @@
 import argparse
 import os
 
-
 if __name__ == "__main__":
     parser = argparse.ArgumentParser(description="Convert data into kaldi format")
     parser.add_argument("data_dir", type=str)
diff --git a/egs/jnas/asr1/local/filter_text.py b/egs/jnas/asr1/local/filter_text.py
index db35c1754da..c5b000ce4c0 100755
--- a/egs/jnas/asr1/local/filter_text.py
+++ b/egs/jnas/asr1/local/filter_text.py
@@ -6,9 +6,8 @@
 
 import argparse
 import codecs
-from io import open
 import sys
-
+from io import open
 
 PY2 = sys.version_info[0] == 2
 sys.stdin = codecs.getreader("utf-8")(sys.stdin if PY2 else sys.stdin.buffer)
diff --git a/egs/ksponspeech/asr1/local/get_space_normalized_hyps.py b/egs/ksponspeech/asr1/local/get_space_normalized_hyps.py
index c105b47c578..1f5225bfe83 100755
--- a/egs/ksponspeech/asr1/local/get_space_normalized_hyps.py
+++ b/egs/ksponspeech/asr1/local/get_space_normalized_hyps.py
@@ -4,11 +4,11 @@
 # Copyright 2020 Electronics and Telecommunications Research Institute (Jeong-Uk, Bang)
 #  Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
 
-import configargparse
 import logging
 import os
 import sys
 
+import configargparse
 from numpy import zeros
 
 space_sym = "▁"
diff --git a/egs/ksponspeech/asr1/local/get_transcriptions.py b/egs/ksponspeech/asr1/local/get_transcriptions.py
index 9d1db4b9225..771c377641f 100644
--- a/egs/ksponspeech/asr1/local/get_transcriptions.py
+++ b/egs/ksponspeech/asr1/local/get_transcriptions.py
@@ -5,13 +5,14 @@
 #  Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
 
 import codecs
-import configargparse
 import logging
 import os
 import re
 import shutil
 import sys
 
+import configargparse
+
 
 def get_parser():
     """Get default arguments."""
diff --git a/egs/libri_css/asr1/local/best_wer_matching.py b/egs/libri_css/asr1/local/best_wer_matching.py
index d9688496ad6..67e1d4b808a 100755
--- a/egs/libri_css/asr1/local/best_wer_matching.py
+++ b/egs/libri_css/asr1/local/best_wer_matching.py
@@ -5,9 +5,10 @@
 import io
 import itertools
 import math
+import sys
+
 import numpy as np
 from scipy.optimize import linear_sum_assignment
-import sys
 
 
 # Helper function to group the list by ref/hyp ids
diff --git a/egs/libri_css/asr1/local/get_perspeaker_output.py b/egs/libri_css/asr1/local/get_perspeaker_output.py
index 3dcdfae1340..3f0361ca320 100755
--- a/egs/libri_css/asr1/local/get_perspeaker_output.py
+++ b/egs/libri_css/asr1/local/get_perspeaker_output.py
@@ -5,9 +5,9 @@
   into per_speaker output (text) file"""
 
 import argparse
-from collections import defaultdict
 import itertools
 import os
+from collections import defaultdict
 
 
 def get_args():
diff --git a/egs/libri_css/asr1/local/prepare_data.py b/egs/libri_css/asr1/local/prepare_data.py
index f5b2e409f5c..f3800935c47 100755
--- a/egs/libri_css/asr1/local/prepare_data.py
+++ b/egs/libri_css/asr1/local/prepare_data.py
@@ -7,6 +7,7 @@
 import argparse
 import glob
 import os
+
 import soundfile as sf
 import tqdm
 
diff --git a/egs/libri_css/asr1/local/segmentation/apply_webrtcvad.py b/egs/libri_css/asr1/local/segmentation/apply_webrtcvad.py
index 08ca2f9d765..e30005fd518 100755
--- a/egs/libri_css/asr1/local/segmentation/apply_webrtcvad.py
+++ b/egs/libri_css/asr1/local/segmentation/apply_webrtcvad.py
@@ -12,6 +12,7 @@
 import os
 import sys
 import wave
+
 import webrtcvad
 
 
diff --git a/egs/ljspeech/tts1/local/clean_text.py b/egs/ljspeech/tts1/local/clean_text.py
index 14c6721ece4..ee7c5fcfa1f 100755
--- a/egs/ljspeech/tts1/local/clean_text.py
+++ b/egs/ljspeech/tts1/local/clean_text.py
@@ -5,8 +5,8 @@
 
 import argparse
 import codecs
-import nltk
 
+import nltk
 from tacotron_cleaner.cleaners import custom_english_cleaners
 
 try:
diff --git a/egs/lrs/avsr1/local/se_batch.py b/egs/lrs/avsr1/local/se_batch.py
index c5f0a58bf6b..6b78ee965eb 100755
--- a/egs/lrs/avsr1/local/se_batch.py
+++ b/egs/lrs/avsr1/local/se_batch.py
@@ -5,11 +5,12 @@
 License, v. 2.0. If a copy of the MPL was not distributed with this
 file, You can obtain one at http://mozilla.org/MPL/2.0/."""
 
-from deepxi.utils import read_wav
 import glob
-import numpy as np
 import os
 
+import numpy as np
+from deepxi.utils import read_wav
+
 
 def Batch(fdir, snr_l=[]):
     """REQUIRES REWRITING. WILL BE MOVED TO deepxi/utils.py
diff --git a/egs/mgb2/asr1/local/process_xml.py b/egs/mgb2/asr1/local/process_xml.py
index dadfb97845e..e0fa189d083 100644
--- a/egs/mgb2/asr1/local/process_xml.py
+++ b/egs/mgb2/asr1/local/process_xml.py
@@ -1,9 +1,10 @@
 #!/usr/bin/env python3
 
 import argparse
-from bs4 import BeautifulSoup
 import sys
 
+from bs4 import BeautifulSoup
+
 
 def get_args():
     parser = argparse.ArgumentParser(description="""This script process xml file.""")
diff --git a/egs/mgb2/asr1/local/text_segmenting.py b/egs/mgb2/asr1/local/text_segmenting.py
index ec9004a20b1..6cfa58fb135 100644
--- a/egs/mgb2/asr1/local/text_segmenting.py
+++ b/egs/mgb2/asr1/local/text_segmenting.py
@@ -4,6 +4,7 @@
 # Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
 
 import argparse
+
 import pandas as pd
 
 
diff --git a/egs/polyphone_swiss_french/asr1/local/data_prep.py b/egs/polyphone_swiss_french/asr1/local/data_prep.py
index 6926ceabc1f..6a41a0b8717 100755
--- a/egs/polyphone_swiss_french/asr1/local/data_prep.py
+++ b/egs/polyphone_swiss_french/asr1/local/data_prep.py
@@ -1,11 +1,11 @@
 #!/usr/bin/env python3
-from collections import defaultdict
 import os
 import pathlib
-from random import shuffle
 import re
 import subprocess
 import sys
+from collections import defaultdict
+from random import shuffle
 
 
 class FrPolyphonePrepper:
@@ -570,6 +570,7 @@ def _generate_random(self, corpus, splits):
 
 if __name__ == "__main__":
     import argparse
+
     import yaml
 
     example = "{0} --config conf/dataprep.yml".format(sys.argv[0])
diff --git a/egs/puebla_nahuatl/asr1/local/construct_dataset.py b/egs/puebla_nahuatl/asr1/local/construct_dataset.py
index 752c915e22f..fd471e44ebf 100644
--- a/egs/puebla_nahuatl/asr1/local/construct_dataset.py
+++ b/egs/puebla_nahuatl/asr1/local/construct_dataset.py
@@ -1,5 +1,4 @@
 import os
-
 from argparse import ArgumentParser
 
 
diff --git a/egs/puebla_nahuatl/asr1/local/data_prep.py b/egs/puebla_nahuatl/asr1/local/data_prep.py
index 959d9a91250..6d90f9a0d4c 100755
--- a/egs/puebla_nahuatl/asr1/local/data_prep.py
+++ b/egs/puebla_nahuatl/asr1/local/data_prep.py
@@ -5,11 +5,9 @@
 import shutil
 import string
 import sys
-
 from argparse import ArgumentParser
 from xml.dom.minidom import parse
 
-
 s = "".join(chr(c) for c in range(sys.maxunicode + 1))
 ws = "".join(re.findall(r"\s", s))
 outtab = " " * len(ws)
diff --git a/egs/puebla_nahuatl/st1/local/data_prep.py b/egs/puebla_nahuatl/st1/local/data_prep.py
index 74a39fdf478..3d07917fdbc 100644
--- a/egs/puebla_nahuatl/st1/local/data_prep.py
+++ b/egs/puebla_nahuatl/st1/local/data_prep.py
@@ -1,10 +1,10 @@
 # -*- coding: UTF-8 -*-
 
-from argparse import ArgumentParser
 import os
 import re
 import string
 import sys
+from argparse import ArgumentParser
 from xml.dom.minidom import parse
 
 s = "".join(chr(c) for c in range(sys.maxunicode + 1))
diff --git a/egs/reverb/asr1/local/filterjson.py b/egs/reverb/asr1/local/filterjson.py
index 00dff00fca3..400177e3d17 100755
--- a/egs/reverb/asr1/local/filterjson.py
+++ b/egs/reverb/asr1/local/filterjson.py
@@ -6,12 +6,11 @@
 
 import argparse
 import codecs
-from io import open
 import json
 import logging
 import re
 import sys
-
+from io import open
 
 PY2 = sys.version_info[0] == 2
 sys.stdin = codecs.getreader("utf-8")(sys.stdin if PY2 else sys.stdin.buffer)
diff --git a/egs/reverb/asr1/local/run_wpe.py b/egs/reverb/asr1/local/run_wpe.py
index 309cf609d90..84d21b3b5c7 100755
--- a/egs/reverb/asr1/local/run_wpe.py
+++ b/egs/reverb/asr1/local/run_wpe.py
@@ -6,12 +6,11 @@
 import argparse
 import errno
 import os
-import soundfile as sf
 
-from nara_wpe.utils import istft
-from nara_wpe.utils import stft
-from nara_wpe.wpe import wpe
 import numpy as np
+import soundfile as sf
+from nara_wpe.utils import istft, stft
+from nara_wpe.wpe import wpe
 
 parser = argparse.ArgumentParser()
 parser.add_argument("--files", "-f", nargs="+")
diff --git a/egs/reverb/asr1_multich/local/filterjson.py b/egs/reverb/asr1_multich/local/filterjson.py
index 8841d546dc2..400177e3d17 100755
--- a/egs/reverb/asr1_multich/local/filterjson.py
+++ b/egs/reverb/asr1_multich/local/filterjson.py
@@ -6,11 +6,11 @@
 
 import argparse
 import codecs
-from io import open
 import json
 import logging
 import re
 import sys
+from io import open
 
 PY2 = sys.version_info[0] == 2
 sys.stdin = codecs.getreader("utf-8")(sys.stdin if PY2 else sys.stdin.buffer)
diff --git a/egs/tweb/tts1/local/clean_text.py b/egs/tweb/tts1/local/clean_text.py
index 07a34438f24..c7634744928 100755
--- a/egs/tweb/tts1/local/clean_text.py
+++ b/egs/tweb/tts1/local/clean_text.py
@@ -8,7 +8,6 @@
 
 from tacotron_cleaner.cleaners import custom_english_cleaners
 
-
 if __name__ == "__main__":
     parser = argparse.ArgumentParser()
     parser.add_argument("text", type=str, help="text to be cleaned")
diff --git a/egs/vais1000/tts1/local/clean_text.py b/egs/vais1000/tts1/local/clean_text.py
index 8f89b943092..d1e320c654e 100755
--- a/egs/vais1000/tts1/local/clean_text.py
+++ b/egs/vais1000/tts1/local/clean_text.py
@@ -8,7 +8,6 @@
 
 from vietnamese_cleaner.vietnamese_cleaners import vietnamese_cleaner
 
-
 if __name__ == "__main__":
     parser = argparse.ArgumentParser()
     parser.add_argument("text", type=str, help="text to be cleaned")
diff --git a/egs/vcc20/tts1_en_fi/local/clean_text_css10.py b/egs/vcc20/tts1_en_fi/local/clean_text_css10.py
index 2b64d394028..b83b8159884 100755
--- a/egs/vcc20/tts1_en_fi/local/clean_text_css10.py
+++ b/egs/vcc20/tts1_en_fi/local/clean_text_css10.py
@@ -9,13 +9,15 @@
 import os
 
 import nltk
-from tacotron_cleaner.cleaners import collapse_whitespace
-from tacotron_cleaner.cleaners import expand_abbreviations
-from tacotron_cleaner.cleaners import expand_numbers
-from tacotron_cleaner.cleaners import expand_symbols
-from tacotron_cleaner.cleaners import lowercase
-from tacotron_cleaner.cleaners import remove_unnecessary_symbols
-from tacotron_cleaner.cleaners import uppercase
+from tacotron_cleaner.cleaners import (
+    collapse_whitespace,
+    expand_abbreviations,
+    expand_numbers,
+    expand_symbols,
+    lowercase,
+    remove_unnecessary_symbols,
+    uppercase,
+)
 
 try:
     # For phoneme conversion, use https://github.com/Kyubyong/g2p.
diff --git a/egs/vcc20/vc1_task1/local/clean_text_asr_result.py b/egs/vcc20/vc1_task1/local/clean_text_asr_result.py
index 9dc253855e6..381f9ffaf6b 100755
--- a/egs/vcc20/vc1_task1/local/clean_text_asr_result.py
+++ b/egs/vcc20/vc1_task1/local/clean_text_asr_result.py
@@ -5,8 +5,8 @@
 
 import argparse
 import codecs
-import nltk
 
+import nltk
 from tacotron_cleaner.cleaners import custom_english_cleaners
 
 try:
diff --git a/egs/vcc20/vc1_task2/local/clean_text_finnish.py b/egs/vcc20/vc1_task2/local/clean_text_finnish.py
index fbbe6fa8a76..59e0a23f798 100755
--- a/egs/vcc20/vc1_task2/local/clean_text_finnish.py
+++ b/egs/vcc20/vc1_task2/local/clean_text_finnish.py
@@ -5,16 +5,18 @@
 
 import argparse
 import codecs
-import nltk
 
-from tacotron_cleaner.cleaners import collapse_whitespace
-from tacotron_cleaner.cleaners import custom_english_cleaners
-from tacotron_cleaner.cleaners import expand_abbreviations
-from tacotron_cleaner.cleaners import expand_numbers
-from tacotron_cleaner.cleaners import expand_symbols
-from tacotron_cleaner.cleaners import lowercase
-from tacotron_cleaner.cleaners import remove_unnecessary_symbols
-from tacotron_cleaner.cleaners import uppercase
+import nltk
+from tacotron_cleaner.cleaners import (
+    collapse_whitespace,
+    custom_english_cleaners,
+    expand_abbreviations,
+    expand_numbers,
+    expand_symbols,
+    lowercase,
+    remove_unnecessary_symbols,
+    uppercase,
+)
 
 E_lang_tag = "en_US"
 
diff --git a/egs/vcc20/vc1_task2/local/clean_text_german.py b/egs/vcc20/vc1_task2/local/clean_text_german.py
index b9123de1578..a10fd4e8f2e 100755
--- a/egs/vcc20/vc1_task2/local/clean_text_german.py
+++ b/egs/vcc20/vc1_task2/local/clean_text_german.py
@@ -5,11 +5,10 @@
 
 import argparse
 import codecs
-import nltk
 
+import nltk
 from tacotron_cleaner.cleaners import custom_english_cleaners
 
-
 E_lang_tag = "en_US"
 
 try:
diff --git a/egs/vcc20/vc1_task2/local/clean_text_mandarin.py b/egs/vcc20/vc1_task2/local/clean_text_mandarin.py
index e1932ceebd0..9a2784f0a2c 100755
--- a/egs/vcc20/vc1_task2/local/clean_text_mandarin.py
+++ b/egs/vcc20/vc1_task2/local/clean_text_mandarin.py
@@ -5,14 +5,13 @@
 
 import argparse
 import codecs
-import nltk
 
+import nltk
+from pypinyin import Style
 from pypinyin.contrib.neutral_tone import NeutralToneWith5Mixin
 from pypinyin.converter import DefaultConverter
 from pypinyin.core import Pinyin
-from pypinyin import Style
-from pypinyin.style._utils import get_finals
-from pypinyin.style._utils import get_initials
+from pypinyin.style._utils import get_finals, get_initials
 from tacotron_cleaner.cleaners import custom_english_cleaners
 
 
diff --git a/egs/vcc20/voc1/local/subset_data_dir.py b/egs/vcc20/voc1/local/subset_data_dir.py
index 841d0fb2bfc..968cd3d02d1 100755
--- a/egs/vcc20/voc1/local/subset_data_dir.py
+++ b/egs/vcc20/voc1/local/subset_data_dir.py
@@ -5,8 +5,8 @@
 # consisting of some specified number of utterances.
 
 import argparse
-from io import open
 import sys
+from io import open
 
 
 def get_parser():
diff --git a/egs/voxforge/asr1/local/filter_text.py b/egs/voxforge/asr1/local/filter_text.py
index db35c1754da..c5b000ce4c0 100755
--- a/egs/voxforge/asr1/local/filter_text.py
+++ b/egs/voxforge/asr1/local/filter_text.py
@@ -6,9 +6,8 @@
 
 import argparse
 import codecs
-from io import open
 import sys
-
+from io import open
 
 PY2 = sys.version_info[0] == 2
 sys.stdin = codecs.getreader("utf-8")(sys.stdin if PY2 else sys.stdin.buffer)
diff --git a/egs/wsj/asr1/local/filtering_samples.py b/egs/wsj/asr1/local/filtering_samples.py
index 27766d43e58..4b91b004373 100755
--- a/egs/wsj/asr1/local/filtering_samples.py
+++ b/egs/wsj/asr1/local/filtering_samples.py
@@ -4,16 +4,15 @@
 #  Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
 
 
-from functools import reduce
 import json
-from operator import mul
 import sys
+from functools import reduce
+from operator import mul
 
 from espnet.bin.asr_train import get_parser
 from espnet.nets.pytorch_backend.nets_utils import get_subsample
 from espnet.utils.dynamic_import import dynamic_import
 
-
 if __name__ == "__main__":
     cmd_args = sys.argv[1:]
     parser = get_parser(required=False)
diff --git a/egs/wsj_mix/asr1/local/merge_scp2json.py b/egs/wsj_mix/asr1/local/merge_scp2json.py
index 52260785b9d..7cf55f2d35f 100755
--- a/egs/wsj_mix/asr1/local/merge_scp2json.py
+++ b/egs/wsj_mix/asr1/local/merge_scp2json.py
@@ -3,10 +3,10 @@
 
 import argparse
 import codecs
-from io import open
 import json
 import logging
 import sys
+from io import open
 
 from espnet.utils.cli_utils import get_commandline_args
 
diff --git a/egs/wsj_mix/asr1/local/mergejson.py b/egs/wsj_mix/asr1/local/mergejson.py
index 0926a858469..8b965cb97e5 100755
--- a/egs/wsj_mix/asr1/local/mergejson.py
+++ b/egs/wsj_mix/asr1/local/mergejson.py
@@ -11,7 +11,6 @@
 import logging
 import sys
 
-
 if __name__ == "__main__":
     parser = argparse.ArgumentParser()
     parser.add_argument("jsons", type=str, nargs="+", help="json files")
diff --git a/egs/yoloxochitl_mixtec/asr1/local/data_prep.py b/egs/yoloxochitl_mixtec/asr1/local/data_prep.py
index 91fcee41249..e96e633df00 100755
--- a/egs/yoloxochitl_mixtec/asr1/local/data_prep.py
+++ b/egs/yoloxochitl_mixtec/asr1/local/data_prep.py
@@ -1,14 +1,15 @@
 # -*- coding: UTF-8 -*-
 
-from argparse import ArgumentParser
 import os
 import re
 import shutil
-import soundfile as sf
 import string
 import sys
+from argparse import ArgumentParser
 from xml.dom.minidom import parse
 
+import soundfile as sf
+
 s = "".join(chr(c) for c in range(sys.maxunicode + 1))
 ws = "".join(re.findall(r"\s", s))
 outtab = " " * len(ws)
diff --git a/egs2/README.md b/egs2/README.md
index d67bdde2e8c..f4429367fa7 100755
--- a/egs2/README.md
+++ b/egs2/README.md
@@ -19,6 +19,7 @@ See: https://espnet.github.io/espnet/espnet2_tutorial.html#recipes-using-espnet2
 | bur_openslr80           | Burmese ASR training dataset                                                                                                     | ASR                     | BUR                   | https://openslr.org/80/                                                                                      |              |
 | catslu               	  | CATSLU-MAPS                                                                                                                      | SLU                     | CMN           	      | https://sites.google.com/view/catslu/home                                                                     |              |
 | chime4                  | The 4th CHiME Speech Separation and Recognition Challenge                                                                        | ASR/Multichannel ASR    | ENG                   | http://spandh.dcs.shef.ac.uk/chime_challenge/chime2016/                                                      |              |
+| chime6                  | The 6th CHiME Speech Separation and Recognition Challenge    | ASR                                        | ENG             | https://chimechallenge.github.io/chime6/                |                               |
 | clarity21               | The First Clarity Enhancement Challenge CEC1                                                                                     | SE                      | ENG                   | https://claritychallenge.github.io/clarity_CEC1_doc/                                                         |              |
 | cmu_indic               | CMU INDIC                                                                                                                        | TTS                     | 7 languages           | http://festvox.org/cmu_indic/                                                                                |              |
 | commonvoice             | The Mozilla Common Voice                                                                                                         | ASR                     | 13 languages          | https://voice.mozilla.org/datasets                                                                           |              |
diff --git a/egs2/TEMPLATE/asr1/asr.sh b/egs2/TEMPLATE/asr1/asr.sh
index f4d7a8ad24a..763aceb7a34 100755
--- a/egs2/TEMPLATE/asr1/asr.sh
+++ b/egs2/TEMPLATE/asr1/asr.sh
@@ -755,7 +755,7 @@ if ! "${skip_train}"; then
             log "LM collect-stats started... log: '${_logdir}/stats.*.log'"
             # NOTE: --*_shape_file doesn't require length information if --batch_type=unsorted,
             #       but it's used only for deciding the sample ids.
-            # shellcheck disable=SC2086
+            # shellcheck disable=SC2046,SC2086
             ${train_cmd} JOB=1:"${_nj}" "${_logdir}"/stats.JOB.log \
                 ${python} -m espnet2.bin.lm_train \
                     --collect_stats true \
@@ -771,7 +771,7 @@ if ! "${skip_train}"; then
                     --train_shape_file "${_logdir}/train.JOB.scp" \
                     --valid_shape_file "${_logdir}/dev.JOB.scp" \
                     --output_dir "${_logdir}/stats.JOB" \
-                    ${_opts} ${lm_args} || { cat "${_logdir}"/stats.1.log; exit 1; }
+                    ${_opts} ${lm_args} || { cat $(grep -l -i error "${_logdir}"/stats.*.log) ; exit 1; }
 
             # 4. Aggregate shape files
             _opts=
@@ -967,7 +967,7 @@ if ! "${skip_train}"; then
         # NOTE: --*_shape_file doesn't require length information if --batch_type=unsorted,
         #       but it's used only for deciding the sample ids.
 
-        # shellcheck disable=SC2086
+        # shellcheck disable=SC2046,SC2086
         ${train_cmd} JOB=1:"${_nj}" "${_logdir}"/stats.JOB.log \
             ${python} -m espnet2.bin.asr_train \
                 --collect_stats true \
@@ -985,7 +985,7 @@ if ! "${skip_train}"; then
                 --train_shape_file "${_logdir}/train.JOB.scp" \
                 --valid_shape_file "${_logdir}/valid.JOB.scp" \
                 --output_dir "${_logdir}/stats.JOB" \
-                ${_opts} ${asr_args} || { cat "${_logdir}"/stats.1.log; exit 1; }
+                ${_opts} ${asr_args} || { cat $(grep -l -i error "${_logdir}"/stats.*.log) ; exit 1; }
 
         # 4. Aggregate shape files
         _opts=
@@ -1242,7 +1242,7 @@ if ! "${skip_eval}"; then
 
             # 2. Submit decoding jobs
             log "Decoding started... log: '${_logdir}/asr_inference.*.log'"
-            # shellcheck disable=SC2086
+            # shellcheck disable=SC2046,SC2086
             ${_cmd} --gpu "${_ngpu}" JOB=1:"${_nj}" "${_logdir}"/asr_inference.JOB.log \
                 ${python} -m ${asr_inference_tool} \
                     --batch_size ${batch_size} \
@@ -1252,7 +1252,7 @@ if ! "${skip_eval}"; then
                     --asr_train_config "${asr_exp}"/config.yaml \
                     --asr_model_file "${asr_exp}"/"${inference_asr_model}" \
                     --output_dir "${_logdir}"/output.JOB \
-                    ${_opts} ${inference_args}
+                    ${_opts} ${inference_args} || { cat $(grep -l -i error "${_logdir}"/asr_inference.*.log) ; exit 1; }
 
             # 3. Concatenates the output files from each jobs
             for f in token token_int score text; do
diff --git a/egs2/TEMPLATE/asr1/db.sh b/egs2/TEMPLATE/asr1/db.sh
index 3d443b38a84..7cbc4eeb67b 100755
--- a/egs2/TEMPLATE/asr1/db.sh
+++ b/egs2/TEMPLATE/asr1/db.sh
@@ -23,6 +23,7 @@ REVERB=
 REVERB_OUT="${PWD}/REVERB"  # Output file path
 CHIME3=
 CHIME4=
+CHIME5=
 CSJDATATOP=
 CSJVER=dvd  ## Set your CSJ format (dvd or usb).
             ## Usage    :
diff --git a/egs2/TEMPLATE/asr1/pyscripts/audio/format_wav_scp.py b/egs2/TEMPLATE/asr1/pyscripts/audio/format_wav_scp.py
index cca465bb93c..06bb01f926b 100755
--- a/egs2/TEMPLATE/asr1/pyscripts/audio/format_wav_scp.py
+++ b/egs2/TEMPLATE/asr1/pyscripts/audio/format_wav_scp.py
@@ -3,19 +3,19 @@
 import logging
 from io import BytesIO
 from pathlib import Path
-from typing import Tuple, Optional
+from typing import Optional, Tuple
 
-import kaldiio
 import humanfriendly
+import kaldiio
 import numpy as np
 import resampy
 import soundfile
 from tqdm import tqdm
 from typeguard import check_argument_types
 
-from espnet.utils.cli_utils import get_commandline_args
 from espnet2.fileio.read_text import read_2column_text
 from espnet2.fileio.sound_scp import SoundScpWriter
+from espnet.utils.cli_utils import get_commandline_args
 
 
 def humanfriendly_or_none(value: str):
diff --git a/egs2/TEMPLATE/asr1/pyscripts/utils/convert_text_to_phn.py b/egs2/TEMPLATE/asr1/pyscripts/utils/convert_text_to_phn.py
index 21f8f4daf46..052b23ca636 100755
--- a/egs2/TEMPLATE/asr1/pyscripts/utils/convert_text_to_phn.py
+++ b/egs2/TEMPLATE/asr1/pyscripts/utils/convert_text_to_phn.py
@@ -1,15 +1,16 @@
 #!/usr/bin/env python3
 
-# Copyright 2021 Tomoki Hayashi
+# Copyright 2021 Tomoki Hayashi and Gunnar Thor
 #  Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
 
 """Convert kaldi-style text into phonemized sentences."""
 
 import argparse
 import codecs
+import contextlib
 
-from joblib import delayed
-from joblib import Parallel
+from joblib import Parallel, delayed, parallel
+from tqdm import tqdm
 
 from espnet2.text.cleaner import TextCleaner
 from espnet2.text.phoneme_tokenizer import PhonemeTokenizer
@@ -34,13 +35,40 @@ def main():
     text = {line.split()[0]: " ".join(line.split()[1:]) for line in lines}
     if cleaner is not None:
         text = {k: cleaner(v) for k, v in text.items()}
-    phns_list = Parallel(n_jobs=args.nj)(
-        [delayed(phoneme_tokenizer.text2tokens)(sentence) for sentence in text.values()]
-    )
+    with tqdm_joblib(tqdm(total=len(text.values()), desc="Phonemizing")):
+        phns_list = Parallel(n_jobs=args.nj)(
+            [
+                delayed(phoneme_tokenizer.text2tokens)(sentence)
+                for sentence in text.values()
+            ]
+        )
     with codecs.open(args.out_text, "w", encoding="utf8") as g:
         for utt_id, phns in zip(text.keys(), phns_list):
             g.write(f"{utt_id} " + " ".join(phns) + "\n")
 
 
+@contextlib.contextmanager
+def tqdm_joblib(tqdm_object):
+    """Patch joblib to report into tqdm progress bar given as argument.
+
+    Reference:
+        https://stackoverflow.com/questions/24983493
+
+    """
+
+    class TqdmBatchCompletionCallback(parallel.BatchCompletionCallBack):
+        def __call__(self, *args, **kwargs):
+            tqdm_object.update(n=self.batch_size)
+            return super().__call__(*args, **kwargs)
+
+    old_batch_callback = parallel.BatchCompletionCallBack
+    parallel.BatchCompletionCallBack = TqdmBatchCompletionCallback
+    try:
+        yield tqdm_object
+    finally:
+        parallel.BatchCompletionCallBack = old_batch_callback
+        tqdm_object.close()
+
+
 if __name__ == "__main__":
     main()
diff --git a/egs2/TEMPLATE/asr1/pyscripts/utils/evaluate_f0.py b/egs2/TEMPLATE/asr1/pyscripts/utils/evaluate_f0.py
index e27e57624ee..bc9a3709f99 100755
--- a/egs2/TEMPLATE/asr1/pyscripts/utils/evaluate_f0.py
+++ b/egs2/TEMPLATE/asr1/pyscripts/utils/evaluate_f0.py
@@ -10,17 +10,13 @@
 import logging
 import multiprocessing as mp
 import os
-
-from typing import Dict
-from typing import List
-from typing import Tuple
+from typing import Dict, List, Tuple
 
 import librosa
 import numpy as np
 import pysptk
 import pyworld as pw
 import soundfile as sf
-
 from fastdtw import fastdtw
 from scipy import spatial
 
diff --git a/egs2/TEMPLATE/asr1/pyscripts/utils/evaluate_mcd.py b/egs2/TEMPLATE/asr1/pyscripts/utils/evaluate_mcd.py
index 379438217ea..213dc60b563 100755
--- a/egs2/TEMPLATE/asr1/pyscripts/utils/evaluate_mcd.py
+++ b/egs2/TEMPLATE/asr1/pyscripts/utils/evaluate_mcd.py
@@ -10,16 +10,12 @@
 import logging
 import multiprocessing as mp
 import os
-
-from typing import Dict
-from typing import List
-from typing import Tuple
+from typing import Dict, List, Tuple
 
 import librosa
 import numpy as np
 import pysptk
 import soundfile as sf
-
 from fastdtw import fastdtw
 from scipy import spatial
 
diff --git a/egs2/TEMPLATE/asr1/pyscripts/utils/extract_xvectors.py b/egs2/TEMPLATE/asr1/pyscripts/utils/extract_xvectors.py
index e64b82dc515..a58a844be0a 100755
--- a/egs2/TEMPLATE/asr1/pyscripts/utils/extract_xvectors.py
+++ b/egs2/TEMPLATE/asr1/pyscripts/utils/extract_xvectors.py
@@ -3,14 +3,14 @@
 #  Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
 
 import argparse
-import kaldiio
 import logging
-from pathlib import Path
-import sys
-import torch
 import os
-import numpy as np
+import sys
+from pathlib import Path
 
+import kaldiio
+import numpy as np
+import torch
 from tqdm.contrib import tqdm
 
 from espnet2.fileio.sound_scp import SoundScpReader
diff --git a/egs2/TEMPLATE/asr1/pyscripts/utils/plot_sinc_filters.py b/egs2/TEMPLATE/asr1/pyscripts/utils/plot_sinc_filters.py
index 001ba49d34b..56e06d73d51 100755
--- a/egs2/TEMPLATE/asr1/pyscripts/utils/plot_sinc_filters.py
+++ b/egs2/TEMPLATE/asr1/pyscripts/utils/plot_sinc_filters.py
@@ -12,10 +12,11 @@
 """
 
 import argparse
+import sys
+from pathlib import Path
+
 import matplotlib.pyplot as plt
 import numpy as np
-from pathlib import Path
-import sys
 import torch
 
 
diff --git a/egs2/TEMPLATE/asr1/pyscripts/utils/rotate_logfile.py b/egs2/TEMPLATE/asr1/pyscripts/utils/rotate_logfile.py
new file mode 100755
index 00000000000..aa2818d3a9f
--- /dev/null
+++ b/egs2/TEMPLATE/asr1/pyscripts/utils/rotate_logfile.py
@@ -0,0 +1,59 @@
+#!/usr/bin/env python
+
+# Copyright 2022 Chaitanya Narisetty
+#  Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
+
+"""Rotate log-file."""
+
+import argparse
+import shutil
+from pathlib import Path
+
+
+def rotate(path, max_num_log_files=1000):
+    """Rotate a log-file while retaining past `max_num_log_files` files.
+    Examples:
+        /some/path/
+        ├──logfile.txt
+        ├──logfile.1.txt
+        ├──logfile.2.txt
+        >>> rotate('/some/path/logfile.txt')
+        /some/path/
+        ├──logfile.1.txt
+        ├──logfile.2.txt
+        ├──logfile.3.txt
+    """
+    for i in range(max_num_log_files - 1, -1, -1):
+        if i == 0:
+            p = Path(path)
+            pn = p.parent / (p.stem + ".1" + p.suffix)
+        else:
+            _p = Path(path)
+            p = _p.parent / (_p.stem + f".{i}" + _p.suffix)
+            pn = _p.parent / (_p.stem + f".{i + 1}" + _p.suffix)
+
+        if p.exists():
+            if i == max_num_log_files - 1:
+                p.unlink()
+            else:
+                shutil.move(p, pn)
+
+
+def main():
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "log_filepath", type=str, help="Path to log-file to be rotated."
+    )
+    parser.add_argument(
+        "--max-num-log-files",
+        type=int,
+        help="Maximum number of log-files to be kept.",
+        default=1000,
+    )
+    args = parser.parse_args()
+
+    rotate(args.log_filepath, args.max_num_log_files)
+
+
+if __name__ == "__main__":
+    main()
diff --git a/egs2/TEMPLATE/asr1/pyscripts/utils/score_intent.py b/egs2/TEMPLATE/asr1/pyscripts/utils/score_intent.py
index 4f0f074c9db..ccfba96010d 100755
--- a/egs2/TEMPLATE/asr1/pyscripts/utils/score_intent.py
+++ b/egs2/TEMPLATE/asr1/pyscripts/utils/score_intent.py
@@ -5,11 +5,12 @@
 # Apache 2.0
 
 
+import argparse
 import os
 import re
 import sys
+
 import pandas as pd
-import argparse
 
 
 def get_classification_result(hyp_file, ref_file, hyp_write, ref_write):
diff --git a/egs2/TEMPLATE/asr1/pyscripts/utils/score_summarization.py b/egs2/TEMPLATE/asr1/pyscripts/utils/score_summarization.py
index 35202f1ce88..781ecebfd12 100644
--- a/egs2/TEMPLATE/asr1/pyscripts/utils/score_summarization.py
+++ b/egs2/TEMPLATE/asr1/pyscripts/utils/score_summarization.py
@@ -1,10 +1,9 @@
-import sys
 import os
-from datasets import load_metric
-import numpy as np
-from nlgeval import compute_metrics
-from nlgeval import NLGEval
+import sys
 
+import numpy as np
+from datasets import load_metric
+from nlgeval import NLGEval, compute_metrics
 
 ref_file = sys.argv[1]
 hyp_file = sys.argv[2]
diff --git a/egs2/TEMPLATE/asr1/scripts/utils/evaluate_asr.sh b/egs2/TEMPLATE/asr1/scripts/utils/evaluate_asr.sh
index 7d3da2bfbea..0cc2c632591 100755
--- a/egs2/TEMPLATE/asr1/scripts/utils/evaluate_asr.sh
+++ b/egs2/TEMPLATE/asr1/scripts/utils/evaluate_asr.sh
@@ -173,14 +173,14 @@ if [ ${stage} -le 2 ] && [ ${stop_stage} -ge 2 ]; then
 
     # 2. Submit decoding jobs
     log "Decoding started... log: '${logdir}/asr_inference.*.log'"
-    # shellcheck disable=SC2086
+    # shellcheck disable=SC2046,SC2086
     ${_cmd} --gpu "${_ngpu}" JOB=1:"${_nj}" "${logdir}"/asr_inference.JOB.log \
         python3 -m espnet2.bin.asr_inference \
             --ngpu "${_ngpu}" \
             --data_path_and_name_and_type "${wavscp},speech,sound" \
             --key_file "${logdir}"/keys.JOB.scp \
             --output_dir "${logdir}"/output.JOB \
-            "${_opts[@]}" ${inference_args}
+            "${_opts[@]}" ${inference_args} || { cat $(grep -l -i error "${logdir}"/asr_inference.*.log) ; exit 1; }
 
     # 3. Concatenates the output files from each jobs
     for f in token token_int score text; do
diff --git a/egs2/TEMPLATE/asr1/scripts/utils/show_translation_result.sh b/egs2/TEMPLATE/asr1/scripts/utils/show_translation_result.sh
index c1c1bdf0882..125bc6e8910 100755
--- a/egs2/TEMPLATE/asr1/scripts/utils/show_translation_result.sh
+++ b/egs2/TEMPLATE/asr1/scripts/utils/show_translation_result.sh
@@ -1,6 +1,6 @@
 #!/usr/bin/env bash
 mindepth=0
-maxdepth=3
+maxdepth=1
 case=tc
 
 . utils/parse_options.sh
@@ -44,24 +44,27 @@ cat << EOF
 
 EOF
 
+# only show BLEU score for now
 metrics="bleu"
-
 while IFS= read -r expdir; do
     if ls "${expdir}"/*/*/score_*/result.${case}.txt &> /dev/null; then
         echo "## $(basename ${expdir})"
-        for type in $metrics; do
-                	cat << EOF
+        for type in ${metrics}; do
+            cat << EOF
+
 ### ${type^^}
 
-|dataset|bleu_score|verbose_score|
+|dataset|score|verbose_score|
 |---|---|---|
 EOF
-    data=$(echo "${expdir}"/*/*/score_*/result.${case}.txt | cut -d '/' -f4)
-    bleu=$(sed -n '5p' "${expdir}"/*/*/score_*/result.${case}.txt | cut -d ' ' -f 3 | tr -d ',')
-    verbose=$(sed -n '7p' "${expdir}"/*/*/score_*/result.${case}.txt | cut -d ' ' -f 3- | tr -d '",')
-    echo "${data}|${bleu}|${verbose}"
 
+            for result in "${expdir}"/*/*/score_"${type}"/result."${case}".txt; do
+                inference_tag=$(echo "${result}" | rev | cut -d/ -f4 | rev)
+                test_set=$(echo "${result}" | rev | cut -d/ -f3 | rev)
+                score=$(sed -n '5p' "${result}" | cut -d ' ' -f 3 | tr -d ',')
+                verbose=$(sed -n '7p' "${result}" | cut -d ' ' -f 3- | tr -d '",')
+                echo "|${inference_tag}/${test_set}|${score}|${verbose}|"
+            done
         done
     fi
-
 done < <(find ${exp} -mindepth ${mindepth} -maxdepth ${maxdepth} -type d)
diff --git a/egs2/TEMPLATE/diar1/diar.sh b/egs2/TEMPLATE/diar1/diar.sh
index 815c73537f4..b711d324eab 100755
--- a/egs2/TEMPLATE/diar1/diar.sh
+++ b/egs2/TEMPLATE/diar1/diar.sh
@@ -348,7 +348,7 @@ if ! "${skip_train}"; then
         # NOTE: --*_shape_file doesn't require length information if --batch_type=unsorted,
         #       but it's used only for deciding the sample ids.
 
-        # shellcheck disable=SC2086
+        # shellcheck disable=SC2046,SC2086
         ${train_cmd} JOB=1:"${_nj}" "${_logdir}"/stats.JOB.log \
             ${python} -m espnet2.bin.diar_train \
                 --collect_stats true \
@@ -360,7 +360,7 @@ if ! "${skip_train}"; then
                 --train_shape_file "${_logdir}/train.JOB.scp" \
                 --valid_shape_file "${_logdir}/valid.JOB.scp" \
                 --output_dir "${_logdir}/stats.JOB" \
-                ${_opts} ${diar_args} || { cat "${_logdir}"/stats.1.log; exit 1; }
+                ${_opts} ${diar_args} || { cat $(grep -l -i error "${_logdir}"/stats.*.log) ; exit 1; }
 
         # 4. Aggregate shape files
         _opts=
@@ -510,7 +510,7 @@ if ! "${skip_eval}"; then
 
             # 2. Submit inference jobs
             log "Diarization started... log: '${_logdir}/diar_inference.*.log'"
-            # shellcheck disable=SC2086
+            # shellcheck disable=SC2046,SC2086
             ${_cmd} --gpu "${_ngpu}" JOB=1:"${_nj}" "${_logdir}"/diar_inference.JOB.log \
                 ${python} -m espnet2.bin.diar_inference \
                     --ngpu "${_ngpu}" \
@@ -520,7 +520,7 @@ if ! "${skip_eval}"; then
                     --train_config "${diar_exp}"/config.yaml \
                     --model_file "${diar_exp}"/"${inference_model}" \
                     --output_dir "${_logdir}"/output.JOB \
-                    ${_opts}
+                    ${_opts} || { cat $(grep -l -i error "${_logdir}"/diar_inference.*.log) ; exit 1; }
 
             # 3. Concatenates the output files from each jobs
             for i in $(seq "${_nj}"); do
diff --git a/egs2/TEMPLATE/diar1/pyscripts/utils/convert_rttm.py b/egs2/TEMPLATE/diar1/pyscripts/utils/convert_rttm.py
index d5d4b257b36..e3e1047d7bb 100755
--- a/egs2/TEMPLATE/diar1/pyscripts/utils/convert_rttm.py
+++ b/egs2/TEMPLATE/diar1/pyscripts/utils/convert_rttm.py
@@ -1,19 +1,20 @@
 #!/usr/bin/env python3
 
+import argparse
 import collections.abc
-import humanfriendly
+import logging
+import os
+import re
 from pathlib import Path
 from typing import Union
 
-import argparse
-import logging
+import humanfriendly
 import numpy as np
-import re
-import os
 import soundfile
-from espnet2.utils.types import str_or_int
 from typeguard import check_argument_types
 
+from espnet2.utils.types import str_or_int
+
 
 def convert_rttm_text(
     path: Union[Path, str],
diff --git a/egs2/TEMPLATE/diar1/pyscripts/utils/make_rttm.py b/egs2/TEMPLATE/diar1/pyscripts/utils/make_rttm.py
index f8b9c8c05af..1f08fce0060 100755
--- a/egs2/TEMPLATE/diar1/pyscripts/utils/make_rttm.py
+++ b/egs2/TEMPLATE/diar1/pyscripts/utils/make_rttm.py
@@ -5,11 +5,13 @@
 # Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
 
 import argparse
-from espnet2.fileio.npy_scp import NpyScpReader
 import logging
+
+import humanfriendly
 import numpy as np
 from scipy.signal import medfilt
-import humanfriendly
+
+from espnet2.fileio.npy_scp import NpyScpReader
 
 
 def get_parser() -> argparse.Namespace:
diff --git a/egs2/TEMPLATE/enh1/enh.sh b/egs2/TEMPLATE/enh1/enh.sh
index db170043db6..864a0485df0 100755
--- a/egs2/TEMPLATE/enh1/enh.sh
+++ b/egs2/TEMPLATE/enh1/enh.sh
@@ -494,7 +494,7 @@ if ! "${skip_train}"; then
         #       but it's used only for deciding the sample ids.
 
 
-        # shellcheck disable=SC2086
+        # shellcheck disable=SC2046,SC2086
         ${train_cmd} JOB=1:"${_nj}" "${_logdir}"/stats.JOB.log \
             ${python} -m espnet2.bin.enh_train \
                 --collect_stats true \
@@ -504,7 +504,7 @@ if ! "${skip_train}"; then
                 --train_shape_file "${_logdir}/train.JOB.scp" \
                 --valid_shape_file "${_logdir}/valid.JOB.scp" \
                 --output_dir "${_logdir}/stats.JOB" \
-                ${_opts} ${enh_args} || { cat "${_logdir}"/stats.1.log; exit 1; }
+                ${_opts} ${enh_args} || { cat $(grep -l -i error "${_logdir}"/stats.*.log) ; exit 1; }
 
         # 4. Aggregate shape files
         _opts=
@@ -652,7 +652,7 @@ if ! "${skip_eval}"; then
 
             # 2. Submit inference jobs
             log "Enhancement started... log: '${_logdir}/enh_inference.*.log'"
-            # shellcheck disable=SC2086
+            # shellcheck disable=SC2046,SC2086
             ${_cmd} --gpu "${_ngpu}" JOB=1:"${_nj}" "${_logdir}"/enh_inference.JOB.log \
                 ${python} -m espnet2.bin.enh_inference \
                     --ngpu "${_ngpu}" \
@@ -663,7 +663,7 @@ if ! "${skip_eval}"; then
                     ${inference_enh_config:+--inference_config "$inference_enh_config"} \
                     --model_file "${enh_exp}"/"${inference_model}" \
                     --output_dir "${_logdir}"/output.JOB \
-                    ${_opts} ${inference_args}
+                    ${_opts} ${inference_args} || { cat $(grep -l -i error "${_logdir}"/enh_inference.*.log) ; exit 1; }
 
 
             _spk_list=" "
diff --git a/egs2/TEMPLATE/enh_asr1/enh_asr.sh b/egs2/TEMPLATE/enh_asr1/enh_asr.sh
index fc720ddf94b..9ec09219613 100755
--- a/egs2/TEMPLATE/enh_asr1/enh_asr.sh
+++ b/egs2/TEMPLATE/enh_asr1/enh_asr.sh
@@ -794,7 +794,7 @@ if ! "${skip_train}"; then
             log "LM collect-stats started... log: '${_logdir}/stats.*.log'"
             # NOTE: --*_shape_file doesn't require length information if --batch_type=unsorted,
             #       but it's used only for deciding the sample ids.
-            # shellcheck disable=SC2086
+            # shellcheck disable=SC2046,SC2086
             ${train_cmd} JOB=1:"${_nj}" "${_logdir}"/stats.JOB.log \
                 ${python} -m espnet2.bin.lm_train \
                     --collect_stats true \
@@ -810,7 +810,7 @@ if ! "${skip_train}"; then
                     --train_shape_file "${_logdir}/train.JOB.scp" \
                     --valid_shape_file "${_logdir}/dev.JOB.scp" \
                     --output_dir "${_logdir}/stats.JOB" \
-                    ${_opts} ${lm_args} || { cat "${_logdir}"/stats.1.log; exit 1; }
+                    ${_opts} ${lm_args} || { cat $(grep -l -i error "${_logdir}"/stats.*.log) ; exit 1; }
 
             # 4. Aggregate shape files
             _opts=
@@ -937,7 +937,7 @@ if ! "${skip_train}"; then
         if "${use_ngram}"; then
             log "Stage 9: Ngram Training: train_set=${data_feats}/lm_train.txt"
             cut -f 2 -d " " ${data_feats}/lm_train.txt | lmplz -S "20%" --discount_fallback -o ${ngram_num} - >${ngram_exp}/${ngram_num}gram.arpa
-            build_binary -s ${ngram_exp}/${ngram_num}gram.arpa ${ngram_exp}/${ngram_num}gram.bin 
+            build_binary -s ${ngram_exp}/${ngram_num}gram.arpa ${ngram_exp}/${ngram_num}gram.bin
         else
             log "Stage 9: Skip ngram stages: use_ngram=${use_ngram}"
         fi
@@ -1335,7 +1335,7 @@ if ! "${skip_eval}"; then
 
             # 2. Submit inference jobs
             log "Enhancement started... log: '${_logdir}/enh_inference.*.log'"
-            # shellcheck disable=SC2086
+            # shellcheck disable=SC2046,SC2086
             ${_cmd} --gpu "${_ngpu}" JOB=1:"${_nj}" "${_logdir}"/enh_inference.JOB.log \
                 ${python} -m espnet2.bin.enh_inference \
                     --enh_s2t_task true \
@@ -1347,7 +1347,7 @@ if ! "${skip_eval}"; then
                     ${inference_enh_config:+--inference_config "$inference_enh_config"} \
                     --model_file "${enh_asr_exp}"/"${inference_enh_asr_model}" \
                     --output_dir "${_logdir}"/output.JOB \
-                    ${_opts} ${enh_inference_args}
+                    ${_opts} ${enh_inference_args} || { cat $(grep -l -i error "${_logdir}"/enh_inference.*.log) ; exit 1; }
 
             # 3. Concatenates the output files from each jobs
             _spk_list=" "
@@ -1632,7 +1632,7 @@ if ! "${skip_upload_hf}"; then
         # Generate description file
         # shellcheck disable=SC2034
         hf_task=speech-enhancement-recognition
-        # shellcheck disable=SC2034     
+        # shellcheck disable=SC2034
         espnet_task=EnhS2T
         # shellcheck disable=SC2034
         task_exp=${enh_asr_exp}
diff --git a/egs2/TEMPLATE/enh_asr1/scripts/utils/show_enh_score.sh b/egs2/TEMPLATE/enh_asr1/scripts/utils/show_enh_score.sh
deleted file mode 120000
index 6d6490d3760..00000000000
--- a/egs2/TEMPLATE/enh_asr1/scripts/utils/show_enh_score.sh
+++ /dev/null
@@ -1 +0,0 @@
-../../../enh1/scripts/utils/show_enh_score.sh
\ No newline at end of file
diff --git a/egs2/TEMPLATE/enh_asr1/scripts/utils/show_enh_score.sh b/egs2/TEMPLATE/enh_asr1/scripts/utils/show_enh_score.sh
new file mode 100755
index 00000000000..e135d73f91f
--- /dev/null
+++ b/egs2/TEMPLATE/enh_asr1/scripts/utils/show_enh_score.sh
@@ -0,0 +1,84 @@
+#!/usr/bin/env bash
+mindepth=0
+maxdepth=1
+
+. utils/parse_options.sh
+
+if [ $# -gt 1 ]; then
+    echo "Usage: $0 --mindepth 0 --maxdepth 1 [exp]" 1>&2
+    echo ""
+    echo "Show the system environments and the evaluation results in Markdown format."
+    echo 'The default of <exp> is "exp/".'
+    exit 1
+fi
+
+[ -f ./path.sh ] && . ./path.sh
+set -euo pipefail
+if [ $# -eq 1 ]; then
+    exp=$(realpath "$1")
+else
+    exp=exp
+fi
+
+
+cat << EOF
+<!-- Generated by $0 -->
+# RESULTS
+## Environments
+- date: \`$(LC_ALL=C date)\`
+EOF
+
+python3 << EOF
+import sys, espnet, torch
+pyversion = sys.version.replace('\n', ' ')
+
+print(f"""- python version: \`{pyversion}\`
+- espnet version: \`espnet {espnet.__version__}\`
+- pytorch version: \`pytorch {torch.__version__}\`""")
+EOF
+
+cat << EOF
+- Git hash: \`$(git rev-parse HEAD)\`
+  - Commit date: \`$(git log -1 --format='%cd')\`
+
+EOF
+
+
+while IFS= read -r expdir; do
+    if ls "${expdir}"/*/scoring_enh/result_stoi.txt &> /dev/null; then
+        echo -e "\n## $(basename ${expdir})\n"
+        [ -e "${expdir}"/config.yaml ] && grep ^config "${expdir}"/config.yaml
+        metrics=()
+        heading="\n|dataset|"
+        sep="|---|"
+        for type in pesq estoi stoi sar sdr sir si_snr; do
+            if ls "${expdir}"/*/scoring_enh/result_${type}.txt &> /dev/null; then
+                metrics+=("$type")
+                heading+="${type^^}|"
+                sep+="---|"
+            fi
+        done
+        echo -e "${heading}\n${sep}"
+
+        setnames=()
+        for dirname in "${expdir}"/*/scoring_enh/result_stoi.txt; do
+            dset=$(echo $dirname | sed -e "s#${expdir}/\([^/]*\)/scoring_enh/result_stoi.txt#\1#g")
+            setnames+=("$dset")
+        done
+        for dset in "${setnames[@]}"; do
+            line="|${dset}|"
+            for ((i=0; i<${#metrics[@]}; i++)); do
+                type=${metrics[$i]}
+                if [ -f "${expdir}"/${dset}/scoring_enh/result_${type}.txt ]; then
+                    score=$(head -n1 "${expdir}"/${dset}/scoring_enh/result_${type}.txt)
+                else
+                    score=""
+                fi
+                line+="${score}|"
+            done
+            echo $line
+        done
+        echo ""
+    fi
+
+done < <(find ${exp} -mindepth ${mindepth} -maxdepth ${maxdepth} -type d)
diff --git a/egs2/TEMPLATE/enh_st1/enh_st.sh b/egs2/TEMPLATE/enh_st1/enh_st.sh
index eabf49cc29d..b27f986e582 100755
--- a/egs2/TEMPLATE/enh_st1/enh_st.sh
+++ b/egs2/TEMPLATE/enh_st1/enh_st.sh
@@ -551,7 +551,7 @@ if ! "${skip_data_prep}"; then
             done
             utils/combine_data.sh --extra_files "${utt_extra_files} ${_scp_list}" "data/${train_set}_sp" ${_dirs}
             for extra_file in ${utt_extra_files}; do
-                python pyscripts/utils/remove_duplicate_keys.py data/"${train_set}_sp"/${extra_file} > data/"${train_set}_sp"/${extra_file}.tmp 
+                python pyscripts/utils/remove_duplicate_keys.py data/"${train_set}_sp"/${extra_file} > data/"${train_set}_sp"/${extra_file}.tmp
                 mv data/"${train_set}_sp"/${extra_file}.tmp data/"${train_set}_sp"/${extra_file}
             done
         else
@@ -593,7 +593,7 @@ if ! "${skip_data_prep}"; then
                         fi
                         cp ${single_file} "${data_feats}${_suf}/${dset}"
                         expand_utt_extra_files="${expand_utt_extra_files} $(basename ${single_file})"
-                    done 
+                    done
                 done
                 echo "${expand_utt_extra_files}"
                 utils/fix_data_dir.sh --utt_extra_files "${expand_utt_extra_files}" "${data_feats}${_suf}/${dset}"
@@ -727,9 +727,9 @@ if ! "${skip_data_prep}"; then
             utils/fix_data_dir.sh --utt_extra_files "${utt_extra_files}" "${data_feats}/${dset}"
             for utt_extra_file in ${utt_extra_files}; do
                 python pyscripts/utils/remove_duplicate_keys.py ${data_feats}/${dset}/${utt_extra_file} \
-                    > ${data_feats}/${dset}/${utt_extra_file}.tmp 
+                    > ${data_feats}/${dset}/${utt_extra_file}.tmp
                 mv ${data_feats}/${dset}/${utt_extra_file}.tmp ${data_feats}/${dset}/${utt_extra_file}
-            done 
+            done
         done
 
         # shellcheck disable=SC2002
@@ -934,7 +934,7 @@ if ! "${skip_train}"; then
             log "LM collect-stats started... log: '${_logdir}/stats.*.log'"
             # NOTE: --*_shape_file doesn't require length information if --batch_type=unsorted,
             #       but it's used only for deciding the sample ids.
-            # shellcheck disable=SC2086
+            # shellcheck disable=SC2046,SC2086
             ${train_cmd} JOB=1:"${_nj}" "${_logdir}"/stats.JOB.log \
                 ${python} -m espnet2.bin.lm_train \
                     --collect_stats true \
@@ -950,7 +950,7 @@ if ! "${skip_train}"; then
                     --train_shape_file "${_logdir}/train.JOB.scp" \
                     --valid_shape_file "${_logdir}/dev.JOB.scp" \
                     --output_dir "${_logdir}/stats.JOB" \
-                    ${_opts} ${lm_args} || { cat "${_logdir}"/stats.1.log; exit 1; }
+                    ${_opts} ${lm_args} || { cat $(grep -l -i error "${_logdir}"/stats.*.log) ; exit 1; }
 
             # 4. Aggregate shape files
             _opts=
@@ -1078,7 +1078,7 @@ if ! "${skip_train}"; then
         if "${use_ngram}"; then
             log "Stage 9: Ngram Training: train_set=${data_feats}/lm_train.txt"
             cut -f 2 -d " " ${data_feats}/lm_train.txt | lmplz -S "20%" --discount_fallback -o ${ngram_num} - >${ngram_exp}/${ngram_num}gram.arpa
-            build_binary -s ${ngram_exp}/${ngram_num}gram.arpa ${ngram_exp}/${ngram_num}gram.bin 
+            build_binary -s ${ngram_exp}/${ngram_num}gram.arpa ${ngram_exp}/${ngram_num}gram.bin
         else
             log "Stage 9: Skip ngram stages: use_ngram=${use_ngram}"
         fi
@@ -1148,7 +1148,7 @@ if ! "${skip_train}"; then
         #       but it's used only for deciding the sample ids.
 
         # TODO(jiatong): fix different bpe model
-        # shellcheck disable=SC2086
+        # shellcheck disable=SC2046,SC2086
         ${train_cmd} JOB=1:"${_nj}" "${_logdir}"/stats.JOB.log \
             ${python} -m espnet2.bin.enh_s2t_train \
                 --collect_stats true \
@@ -1173,7 +1173,7 @@ if ! "${skip_train}"; then
                 --train_shape_file "${_logdir}/train.JOB.scp" \
                 --valid_shape_file "${_logdir}/valid.JOB.scp" \
                 --output_dir "${_logdir}/stats.JOB" \
-                ${_opts} ${enh_st_args} || { cat "${_logdir}"/stats.1.log; exit 1; }
+                ${_opts} ${enh_st_args} || { cat $(grep -l -i error "${_logdir}"/stats.*.log) ; exit 1; }
 
         # 4. Aggregate shape files
         _opts=
@@ -1436,7 +1436,7 @@ if ! "${skip_eval}"; then
 
             # 2. Submit decoding jobs
             log "Decoding started... log: '${_logdir}/st_inference.*.log'"
-            # shellcheck disable=SC2086
+            # shellcheck disable=SC2046,SC2086
             ${_cmd} --gpu "${_ngpu}" JOB=1:"${_nj}" "${_logdir}"/st_inference.JOB.log \
                 ${python} -m ${st_inference_tool} \
                     --enh_s2t_task true \
@@ -1447,7 +1447,7 @@ if ! "${skip_eval}"; then
                     --st_train_config "${enh_st_exp}"/config.yaml \
                     --st_model_file "${enh_st_exp}"/"${inference_enh_st_model}" \
                     --output_dir "${_logdir}"/output.JOB \
-                    ${_opts} ${st_inference_args}
+                    ${_opts} ${st_inference_args} || { cat $(grep -l -i error "${_logdir}"/st_inference.*.log) ; exit 1; }
 
             # 3. Concatenates the output files from each jobs
             for f in token token_int score text; do
@@ -1773,11 +1773,11 @@ if ! "${skip_upload_hf}"; then
         gitlfs=$(git lfs --version 2> /dev/null || true)
         [ -z "${gitlfs}" ] && \
             log "ERROR: You need to install git-lfs first" && \
-            exit 1             
-  
+            exit 1
+
         dir_repo=${expdir}/hf_${hf_repo//"/"/"_"}
         [ ! -d "${dir_repo}" ] && git clone https://huggingface.co/${hf_repo} ${dir_repo}
-  
+
         if command -v git &> /dev/null; then
             _creator_name="$(git config user.name)"
             _checkout="git checkout $(git show -s --format=%H)"
@@ -1790,13 +1790,13 @@ if ! "${skip_upload_hf}"; then
         # foo/asr1 -> foo
         _corpus="${_task%/*}"
         _model_name="${_creator_name}/${_corpus}_$(basename ${packed_model} .zip)"
-  
+
         # copy files in ${dir_repo}
         unzip -o ${packed_model} -d ${dir_repo}
         # Generate description file
         # shellcheck disable=SC2034
         hf_task=speech-enhancement-translation
-        # shellcheck disable=SC2034     
+        # shellcheck disable=SC2034
         espnet_task=EnhS2T
         # shellcheck disable=SC2034
         task_exp=${enh_st_exp}
diff --git a/egs2/TEMPLATE/mt1/mt.sh b/egs2/TEMPLATE/mt1/mt.sh
index 587b4ebf534..02260cb3a4d 100755
--- a/egs2/TEMPLATE/mt1/mt.sh
+++ b/egs2/TEMPLATE/mt1/mt.sh
@@ -455,7 +455,7 @@ if ! "${skip_data_prep}"; then
         log "Stage 1: Data preparation for data/${train_set}, data/${valid_set}, etc."
         # [Task dependent] Need to create data.sh for new corpus
         local/data.sh ${local_data_opts}
-        
+
     fi
 
     if [ ${stage} -le 2 ] && [ ${stop_stage} -ge 2 ]; then
@@ -474,7 +474,7 @@ if ! "${skip_data_prep}"; then
                     # with regex to suuport multi-references
                     for single_file in $(ls data/"${dset}"/${extra_file}*); do
                         cp ${single_file} "${data_feats}${_suf}/${dset}"
-                    done 
+                    done
                 done
                 echo "${feats_type}" > "${data_feats}${_suf}/${dset}/feats_type"
             done
@@ -702,7 +702,7 @@ if ! "${skip_train}"; then
             log "LM collect-stats started... log: '${_logdir}/stats.*.log'"
             # NOTE: --*_shape_file doesn't require length information if --batch_type=unsorted,
             #       but it's used only for deciding the sample ids.
-            # shellcheck disable=SC2086
+            # shellcheck disable=SC2046,SC2086
             ${train_cmd} JOB=1:"${_nj}" "${_logdir}"/stats.JOB.log \
                 ${python} -m espnet2.bin.lm_train \
                     --collect_stats true \
@@ -718,7 +718,7 @@ if ! "${skip_train}"; then
                     --train_shape_file "${_logdir}/train.JOB.scp" \
                     --valid_shape_file "${_logdir}/dev.JOB.scp" \
                     --output_dir "${_logdir}/stats.JOB" \
-                    ${_opts} ${lm_args} || { cat "${_logdir}"/stats.1.log; exit 1; }
+                    ${_opts} ${lm_args} || { cat $(grep -l -i error "${_logdir}"/stats.*.log) ; exit 1; }
 
             # 4. Aggregate shape files
             _opts=
@@ -845,7 +845,7 @@ if ! "${skip_train}"; then
         if "${use_ngram}"; then
             log "Stage 8: Ngram Training: train_set=${data_feats}/lm_train.txt"
             cut -f 2 -d " " ${data_feats}/lm_train.txt | lmplz -S "20%" --discount_fallback -o ${ngram_num} - >${ngram_exp}/${ngram_num}gram.arpa
-            build_binary -s ${ngram_exp}/${ngram_num}gram.arpa ${ngram_exp}/${ngram_num}gram.bin 
+            build_binary -s ${ngram_exp}/${ngram_num}gram.arpa ${ngram_exp}/${ngram_num}gram.bin
         else
             log "Stage 8: Skip ngram stages: use_ngram=${use_ngram}"
         fi
@@ -1132,7 +1132,7 @@ if ! "${skip_eval}"; then
 
             # 2. Submit decoding jobs
             log "Decoding started... log: '${_logdir}/mt_inference.*.log'"
-            # shellcheck disable=SC2086
+            # shellcheck disable=SC2046,SC2086
             ${_cmd} --gpu "${_ngpu}" JOB=1:"${_nj}" "${_logdir}"/mt_inference.JOB.log \
                 ${python} -m ${mt_inference_tool} \
                     --batch_size ${batch_size} \
@@ -1142,7 +1142,7 @@ if ! "${skip_eval}"; then
                     --mt_train_config "${mt_exp}"/config.yaml \
                     --mt_model_file "${mt_exp}"/"${inference_mt_model}" \
                     --output_dir "${_logdir}"/output.JOB \
-                    ${_opts} ${inference_args}
+                    ${_opts} ${inference_args} || { cat $(grep -l -i error "${_logdir}"/mt_inference.*.log) ; exit 1; }
 
             # 3. Concatenates the output files from each jobs
             for f in token token_int score text; do
@@ -1205,7 +1205,7 @@ if ! "${skip_eval}"; then
             #                ) \
             #    <(<"${_data}/text.${tgt_case}.${tgt_lang}" awk '{ print "(" $2 "-" $1 ")" }') \
             #        >"${_scoredir}/hyp.trn.org"
-            
+
             # remove utterance id
             #perl -pe 's/\([^\)]+\)//g;' "${_scoredir}/ref.trn.org" > "${_scoredir}/ref.trn"
             #perl -pe 's/\([^\)]+\)//g;' "${_scoredir}/hyp.trn.org" > "${_scoredir}/hyp.trn"
@@ -1215,19 +1215,19 @@ if ! "${skip_eval}"; then
             detokenizer.perl -l ${tgt_lang} -q < "${_scoredir}/hyp.trn" > "${_scoredir}/hyp.trn.detok"
 
             if [ ${tgt_case} = "tc" ]; then
-                echo "Case sensitive BLEU result (single-reference)" >> ${_scoredir}/result.tc.txt
+                echo "Case sensitive BLEU result (single-reference)" > ${_scoredir}/result.tc.txt
                 sacrebleu "${_scoredir}/ref.trn.detok" \
                           -i "${_scoredir}/hyp.trn.detok" \
                           -m bleu chrf ter \
                           >> ${_scoredir}/result.tc.txt
-                
+
                 log "Write a case-sensitive BLEU (single-reference) result in ${_scoredir}/result.tc.txt"
             fi
 
             # detokenize & remove punctuation except apostrophe
             remove_punctuation.pl < "${_scoredir}/ref.trn.detok" > "${_scoredir}/ref.trn.detok.lc.rm"
             remove_punctuation.pl < "${_scoredir}/hyp.trn.detok" > "${_scoredir}/hyp.trn.detok.lc.rm"
-            echo "Case insensitive BLEU result (single-reference)" >> ${_scoredir}/result.lc.txt
+            echo "Case insensitive BLEU result (single-reference)" > ${_scoredir}/result.lc.txt
             sacrebleu -lc "${_scoredir}/ref.trn.detok.lc.rm" \
                       -i "${_scoredir}/hyp.trn.detok.lc.rm" \
                       -m bleu chrf ter \
@@ -1252,8 +1252,8 @@ if ! "${skip_eval}"; then
                                 ) \
                         <(<"${_data}/text.${tgt_case}.${tgt_lang}" awk '{ print "(" $2 "-" $1 ")" }') \
                             >"${_scoredir}/ref.trn.org.${ref_idx}"
-                    
-                    # 
+
+                    #
                     perl -pe 's/\([^\)]+\)//g;' "${_scoredir}/ref.trn.org.${ref_idx}" > "${_scoredir}/ref.trn.${ref_idx}"
                     detokenizer.perl -l ${tgt_lang} -q < "${_scoredir}/ref.trn.${ref_idx}" > "${_scoredir}/ref.trn.detok.${ref_idx}"
                     remove_punctuation.pl < "${_scoredir}/ref.trn.detok.${ref_idx}" > "${_scoredir}/ref.trn.detok.lc.rm.${ref_idx}"
@@ -1279,7 +1279,7 @@ if ! "${skip_eval}"; then
 
         # Show results in Markdown syntax
         scripts/utils/show_translation_result.sh --case $tgt_case "${mt_exp}" > "${mt_exp}"/RESULTS.md
-        cat "${cat_exp}"/RESULTS.md
+        cat "${mt_exp}"/RESULTS.md
     fi
 else
     log "Skip the evaluation stages"
@@ -1386,11 +1386,11 @@ if ! "${skip_upload_hf}"; then
         gitlfs=$(git lfs --version 2> /dev/null || true)
         [ -z "${gitlfs}" ] && \
             log "ERROR: You need to install git-lfs first" && \
-            exit 1             
-  
+            exit 1
+
         dir_repo=${expdir}/hf_${hf_repo//"/"/"_"}
         [ ! -d "${dir_repo}" ] && git clone https://huggingface.co/${hf_repo} ${dir_repo}
-  
+
         if command -v git &> /dev/null; then
             _creator_name="$(git config user.name)"
             _checkout="git checkout $(git show -s --format=%H)"
@@ -1403,13 +1403,13 @@ if ! "${skip_upload_hf}"; then
         # foo/asr1 -> foo
         _corpus="${_task%/*}"
         _model_name="${_creator_name}/${_corpus}_$(basename ${packed_model} .zip)"
-  
+
         # copy files in ${dir_repo}
         unzip -o ${packed_model} -d ${dir_repo}
         # Generate description file
         # shellcheck disable=SC2034
         hf_task=machine-translation
-        # shellcheck disable=SC2034     
+        # shellcheck disable=SC2034
         espnet_task=MT
         # shellcheck disable=SC2034
         task_exp=${mt_exp}
diff --git a/egs2/TEMPLATE/ssl1/hubert.sh b/egs2/TEMPLATE/ssl1/hubert.sh
index 8a6f7590cb8..027b6636782 100755
--- a/egs2/TEMPLATE/ssl1/hubert.sh
+++ b/egs2/TEMPLATE/ssl1/hubert.sh
@@ -143,7 +143,7 @@ Options:
     # Pretrain related
     --pretrain_configs # configration files of pretraining stage
     --n_clusters       # number of k-means clusters of pretraining stage
-    --features_km      # feature for k-means clustering of pretraining stage    
+    --features_km      # feature for k-means clustering of pretraining stage
     --pt_args         # Arguments for hubert model pretraining (default="${pt_args}").
                        # e.g., --pt_args "--max_epoch 10"
                        # Note that it will overwrite args in pt config.
@@ -180,7 +180,7 @@ fi
 [ -z "${valid_set}" ] && { log "${help_message}"; log "Error: --valid_set is required"; exit 2; };
 
 # Check pretrain_config, n_clusters and feature list
-pretrain_config_list=(${pretrain_configs// / }) 
+pretrain_config_list=(${pretrain_configs// / })
 n_clusters_list=(${n_clusters// / })
 feature_list=(${features_km// / })
 if ! [ ${pretrain_start_iter} -le ${pretrain_stop_iter} ]; then
@@ -227,7 +227,7 @@ fi
 if [ ${stage} -le 3 ] && [ ${stop_stage} -ge 3 ]; then
     if [ "${feats_type}" = raw ]; then
         log "Stage 3: Format wav.scp: data/ -> ${data_feats}"
-        
+
         # ====== Recreating "wav.scp" ======
         # Kaldi-wav.scp, which can describe the file path with unix-pipe, like "cat /some/path |",
         # shouldn't be used in training process.
@@ -235,7 +235,7 @@ if [ ${stage} -le 3 ] && [ ${stop_stage} -ge 3 ]; then
         # and it can also change the audio-format and sampling rate.
         # If nothing is need, then format_wav_scp.sh does nothing:
         # i.e. the input file format and rate is same as the output.
-        
+
         for dset in "${train_set}" "${valid_set}"; do
 	    _suf="/org"
             utils/copy_data_dir.sh --validate_opts --non-print data/"${dset}" "${data_feats}${_suf}/${dset}"
@@ -253,7 +253,7 @@ if [ ${stage} -le 3 ] && [ ${stop_stage} -ge 3 ]; then
             scripts/audio/format_wav_scp.sh --nj "${nj}" --cmd "${train_cmd}" \
                                             --audio-format "${audio_format}" --fs "${fs}" ${_opts} \
                                             "data/${dset}/wav.scp" "${data_feats}${_suf}/${dset}"
-            
+
             echo "${feats_type}" > "${data_feats}${_suf}/${dset}/feats_type"
         done
     else
@@ -265,21 +265,21 @@ fi
 
 if [ ${stage} -le 4 ] && [ ${stop_stage} -ge 4 ]; then
     log "Stage 4: Remove long/short data: ${data_feats}/org -> ${data_feats}"
-    
+
     # NOTE(kamo): Not applying to test_sets to keep original data
     for dset in "${train_set}" "${valid_set}"; do
-        
+
         # Copy data dir
         utils/copy_data_dir.sh --validate_opts --non-print "${data_feats}/org/${dset}" "${data_feats}/${dset}"
         cp "${data_feats}/org/${dset}/feats_type" "${data_feats}/${dset}/feats_type"
-        
+
         # Remove short utterances
         _feats_type="$(<${data_feats}/${dset}/feats_type)"
         if [ "${_feats_type}" = raw ]; then
             _fs=$(python3 -c "import humanfriendly as h;print(h.parse_size('${fs}'))")
             _min_length=$(python3 -c "print(int(${min_wav_duration} * ${_fs}))")
             _max_length=$(python3 -c "print(int(${max_wav_duration} * ${_fs}))")
-            
+
             # utt2num_samples is created by format_wav_scp.sh
             <"${data_feats}/org/${dset}/utt2num_samples" \
              awk -v min_length="${_min_length}" -v max_length="${_max_length}" \
@@ -291,11 +291,11 @@ if [ ${stage} -le 4 ] && [ ${stop_stage} -ge 4 ]; then
         else
             log "Error: not supported: --feats_type ${feats_type}"
         fi
-        
+
         # Remove empty text
         <"${data_feats}/org/${dset}/text" \
          awk ' { if( NF != 1 ) print $0; } ' >"${data_feats}/${dset}/text"
-        
+
         # fix_data_dir.sh leaves only utts which exist in all files
         utils/fix_data_dir.sh "${data_feats}/${dset}"
     done
@@ -303,7 +303,7 @@ fi
 
 
 if [ ${stage} -le 7 ] && [ ${stop_stage} -ge 5 ]; then
-    
+
     for ((iter=${pretrain_start_iter}; iter<=${pretrain_stop_iter};iter++)); do
         asr_config="${pretrain_config_list[${iter}]}"
         if [ "${lang}" != noinfo ]; then
@@ -311,25 +311,25 @@ if [ ${stage} -le 7 ] && [ ${stop_stage} -ge 5 ]; then
         else
             asr_stats_dir="${expdir}/pretrain_iter${iter}_stats_${feats_type}"
         fi
-        
+
         if [ -n "${asr_config}" ]; then
             asr_tag="$(basename "${asr_config}" .yaml)_${feats_type}"
         else
             asr_tag="train_${feats_type}"
         fi
-        
+
         asr_exp="${expdir}/pretrain_${asr_tag}_iter${iter}"
-        
+
         train_set_plabel=$(eval "echo ${train_set}_\${feature_list[${iter}]}_km\${n_clusters_list[${iter}]}")
         valid_set_plabel=$(eval "echo ${valid_set}_\${feature_list[${iter}]}_km\${n_clusters_list[${iter}]}")
-        
+
         feats_km="${feature_list[${iter}]}"
         n_clusters="${n_clusters_list[${iter}]}"
         dictdir="./data/${feats_km}_km${n_clusters}_token_list_iter${iter}/${token_type}"
-        
+
         if [ ${stage} -le 5 ] && [ ${stop_stage} -ge 5 ]; then
             log "Stage 5.iter${iter}: Running ${n_clusters} cluster K-means on ${feats_km} feature."
-            
+
             if [ ${iter} -eq 0 ] || [ ${feats_km} == "mfcc" ]; then
                 ./scripts/km.sh \
                     --train_set "${train_set}" \
@@ -354,21 +354,21 @@ if [ ${stage} -le 7 ] && [ ${stop_stage} -ge 5 ]; then
                     --hubert_dir_path "${expdir}/pretrained_model_iter$((iter-1))"/valid.acc.best.pth
             fi
         fi
-        
+
         if [ ${stage} -le 6 ] && [ ${stop_stage} -ge 6 ]; then
             _asr_train_dir="${data_feats}/${train_set_plabel}"
             _asr_valid_dir="${data_feats}/${valid_set_plabel}"
-            
+
             log "Stage 6.iter${iter}: ${feats_km} pretrain model collect stats: \
                        train_set=${_asr_train_dir}, valid_set=${_asr_valid_dir}"
-            
+
             _opts=
             if [ -n "${asr_config}" ]; then
                 # To generate the config file: e.g.
                 #   % python3 -m espnet2.bin.asr_train --print_config --optim adam
                 _opts+="--config ${asr_config} "
             fi
-            
+
             _feats_type="$(<${_asr_train_dir}/feats_type)"
             if [ "${_feats_type}" = raw ]; then
                 _scp=wav.scp
@@ -385,14 +385,14 @@ if [ ${stage} -le 7 ] && [ ${stop_stage} -ge 5 ]; then
                 _input_size="$(<${_asr_train_dir}/feats_dim)"
                 _opts+="--input_size=${_input_size} "
             fi
-            
+
             # 1. Split the key file
             _logdir="${asr_stats_dir}/logdir"
             mkdir -p "${_logdir}"
-            
+
             # Get the minimum number among ${nj} and the number lines of input files
             _nj=$(min "${nj}" "$(<${_asr_train_dir}/${_scp} wc -l)" "$(<${_asr_valid_dir}/${_scp} wc -l)")
-            
+
             key_file="${_asr_train_dir}/${_scp}"
             split_scps=""
             for n in $(seq "${_nj}"); do
@@ -400,7 +400,7 @@ if [ ${stage} -le 7 ] && [ ${stop_stage} -ge 5 ]; then
             done
             # shellcheck disable=SC2086
             utils/split_scp.pl "${key_file}" ${split_scps}
-            
+
             key_file="${_asr_valid_dir}/${_scp}"
             split_scps=""
             for n in $(seq "${_nj}"); do
@@ -408,18 +408,18 @@ if [ ${stage} -le 7 ] && [ ${stop_stage} -ge 5 ]; then
             done
             # shellcheck disable=SC2086
             utils/split_scp.pl "${key_file}" ${split_scps}
-            
+
             # 2. Generate run.sh
             log "Generate '${asr_stats_dir}/run.sh'. You can resume the process from stage 5.iter${iter} using this script"
             mkdir -p "${asr_stats_dir}"; echo "${run_args} --stage 6 \"\$@\"; exit \$?" > "${asr_stats_dir}/run.sh"; chmod +x "${asr_stats_dir}/run.sh"
-            
+
             # 3. Submit jobs
             log "Hubert pretraining collect-stats started... log: '${_logdir}/stats.*.log'"
-            
+
             # NOTE: --*_shape_file doesn't require length information if --batch_type=unsorted,
             #       but it's used only for deciding the sample ids.
-            
-            # shellcheck disable=SC2086
+
+            # shellcheck disableSC2046,SC2086
             ${train_cmd} JOB=1:"${_nj}" "${_logdir}"/stats.JOB.log \
                          ${python} -m espnet2.bin.hubert_train \
                          --collect_stats true \
@@ -439,8 +439,8 @@ if [ ${stage} -le 7 ] && [ ${stop_stage} -ge 5 ]; then
                          --valid_shape_file "${_logdir}/valid.JOB.scp" \
                          --output_dir "${_logdir}/stats.JOB" \
                          --hubert_dict "${dictdir}/dict.txt" \
-                         ${_opts} ${pt_args} || { cat "${_logdir}"/stats.1.log; exit 1; }
-            
+                         ${_opts} ${pt_args} || { cat $(grep -l -i error "${_logdir}"/stats.*.log) ; exit 1; }
+
             # 4. Aggregate shape files
             _opts=
             for i in $(seq "${_nj}"); do
@@ -448,30 +448,30 @@ if [ ${stage} -le 7 ] && [ ${stop_stage} -ge 5 ]; then
             done
             # shellcheck disable=SC2086
             ${python} -m espnet2.bin.aggregate_stats_dirs ${_opts} --output_dir "${asr_stats_dir}"
-            
+
             # Append the num-tokens at the last dimensions. This is used for batch-bins count
             <"${asr_stats_dir}/train/text_shape" \
              awk -v N="$(<${dictdir}/tokens.txt wc -l)" '{ print $0 "," N }' \
              >"${asr_stats_dir}/train/text_shape.${token_type}"
-            
+
             <"${asr_stats_dir}/valid/text_shape" \
              awk -v N="$(<${dictdir}/tokens.txt wc -l)" '{ print $0 "," N }' \
              >"${asr_stats_dir}/valid/text_shape.${token_type}"
         fi
-        
+
         if [ ${stage} -le 7 ] && [ ${stop_stage} -ge 7 ]; then
             _asr_train_dir="${data_feats}/${train_set_plabel}"
             _asr_valid_dir="${data_feats}/${valid_set_plabel}"
-            
+
             log "Stage 7.iter${iter}: Hubert Pretraining: train_set=${_asr_train_dir}, valid_set=${_asr_valid_dir}"
-            
+
             _opts=
             if [ -n "${asr_config}" ]; then
                 # To generate the config file: e.g.
                 #   % python3 -m espnet2.bin.hubert_train --print_config --optim adam
                 _opts+="--config ${asr_config} "
             fi
-            
+
             _feats_type="$(<${_asr_train_dir}/feats_type)"
             if [ "${_feats_type}" = raw ]; then
                 _scp=wav.scp
@@ -488,14 +488,14 @@ if [ ${stage} -le 7 ] && [ ${stop_stage} -ge 5 ]; then
                 _type=kaldi_ark
                 _fold_length="${asr_speech_fold_length}"
                 _input_size="$(<${_asr_train_dir}/feats_dim)"
-                _opts+="--input_size=${_input_size} "        
+                _opts+="--input_size=${_input_size} "
             fi
-            
+
             if [ "${num_splits_asr}" -gt 1 ]; then
                 # If you met a memory error when parsing text files, this option may help you.
                 # The corpus is split into subsets and each subset is used for training one by one in order,
                 # so the memory footprint can be limited to the memory required for each dataset.
-                
+
                 _split_dir="${asr_stats_dir}/splits${num_splits_asr}"
                 if [ ! -f "${_split_dir}/.done" ]; then
                     rm -f "${_split_dir}/.done"
@@ -511,23 +511,23 @@ if [ ${stage} -le 7 ] && [ ${stop_stage} -ge 5 ]; then
                 else
                     log "${_split_dir}/.done exists. Spliting is skipped"
                 fi
-                
+
                 _opts+="--train_data_path_and_name_and_type ${_split_dir}/${_scp},speech,${_type} "
                 _opts+="--train_data_path_and_name_and_type ${_split_dir}/text,text,text "
                 _opts+="--train_shape_file ${_split_dir}/speech_shape "
                 _opts+="--train_shape_file ${_split_dir}/text_shape.${token_type} "
                 _opts+="--multiple_iterator true "
-                
+
             else
                 _opts+="--train_data_path_and_name_and_type ${_asr_train_dir}/${_scp},speech,${_type} "
                 _opts+="--train_data_path_and_name_and_type ${_asr_train_dir}/text,text,text "
                 _opts+="--train_shape_file ${asr_stats_dir}/train/speech_shape "
                 _opts+="--train_shape_file ${asr_stats_dir}/train/text_shape.${token_type} "
             fi
-            
+
             log "Generate '${asr_exp}/run.sh'. You can resume the process from stage 6 using this script"
             mkdir -p "${asr_exp}"; echo "${run_args} --stage 7 \"\$@\"; exit \$?" > "${asr_exp}/run.sh"; chmod +x "${asr_exp}/run.sh"
-            
+
             # NOTE(kamo): --fold_length is used only if --batch_type=folded and it's ignored in the other case
             log "Hubert pretraining started... log: '${asr_exp}/train.log'"
             if echo "${cuda_cmd}" | grep -e queue.pl -e queue-freegpu.pl &> /dev/null; then
@@ -536,7 +536,7 @@ if [ ${stage} -le 7 ] && [ ${stop_stage} -ge 5 ]; then
             else
                 jobname="${asr_exp}/train.log"
             fi
-            
+
             # shellcheck disable=SC2086
             ${python} -m espnet2.bin.launch \
                       --cmd "${cuda_cmd} --name ${jobname}" \
@@ -564,19 +564,19 @@ if [ ${stage} -le 7 ] && [ ${stop_stage} -ge 5 ]; then
                       --output_dir "${asr_exp}" \
                       --hubert_dict "${dictdir}/dict.txt" \
                       ${_opts} ${pt_args}
-            
+
             if [ "${iter}" -ge 0 ]; then
                 log "Create a symbolic link of the pretrained model"
                 if  [ -L "${expdir}/pretrained_model_iter${iter}" ]; then
                     log "Symbolic link ${expdir}/pretrained_model_iter${iter} already exists, remove it."
                     rm "${expdir}/pretrained_model_iter${iter}"
                 fi
-                
+
                 if ! [ -z "${asr_exp}" ]; then
                     ln -s "../${asr_exp}" "${expdir}/pretrained_model_iter${iter}"
                 fi
             fi
-            
+
             log "Model saved in: ${asr_exp}"
         else
             log "Skip the pretraining stages"
diff --git a/egs2/TEMPLATE/ssl1/pyscripts/dump_km_label.py b/egs2/TEMPLATE/ssl1/pyscripts/dump_km_label.py
index 552c84f89ad..5880675c531 100644
--- a/egs2/TEMPLATE/ssl1/pyscripts/dump_km_label.py
+++ b/egs2/TEMPLATE/ssl1/pyscripts/dump_km_label.py
@@ -1,16 +1,14 @@
 import argparse
 import logging
 import os
+import pdb
 import sys
 
-import numpy as np
-
 import joblib
+import numpy as np
 import torch
 import tqdm
-import pdb
-
-from sklearn_km import MfccFeatureReader, get_path_iterator, HubertFeatureReader
+from sklearn_km import HubertFeatureReader, MfccFeatureReader, get_path_iterator
 
 logging.basicConfig(
     level=logging.DEBUG,
diff --git a/egs2/TEMPLATE/ssl1/pyscripts/feature_loader.py b/egs2/TEMPLATE/ssl1/pyscripts/feature_loader.py
index b0dae8a2074..16fdd8c58f2 100644
--- a/egs2/TEMPLATE/ssl1/pyscripts/feature_loader.py
+++ b/egs2/TEMPLATE/ssl1/pyscripts/feature_loader.py
@@ -7,14 +7,13 @@
 #     Paper: https://arxiv.org/pdf/2106.07447.pdf
 #     Code in Fairseq: https://github.com/pytorch/fairseq/tree/master/examples/hubert
 
-"""Extract MFCC & intermediate embedding from the Hubert model for k-means clustering."""
+"""Extract MFCC & intermediate embedding from the Hubert model for k-means clustering"""
 
 import logging
 import os
 import sys
 
 import fairseq
-
 import soundfile as sf
 import torch
 import torchaudio
diff --git a/egs2/TEMPLATE/ssl1/pyscripts/sklearn_km.py b/egs2/TEMPLATE/ssl1/pyscripts/sklearn_km.py
index ce0c82fcd3c..d97e9df26c1 100644
--- a/egs2/TEMPLATE/ssl1/pyscripts/sklearn_km.py
+++ b/egs2/TEMPLATE/ssl1/pyscripts/sklearn_km.py
@@ -8,28 +8,24 @@
 
 import argparse
 import logging
+import math
 import os
 import sys
-from random import sample
 import warnings
+from random import sample
 
+import fairseq
 import joblib
 import numpy as np
-import math
-
 import soundfile as sf
 import torch
 import torchaudio
 import tqdm
-
+from feature_loader import HubertFeatureReader, MfccFeatureReader
 from sklearn.cluster import MiniBatchKMeans
-import fairseq
 
 from espnet2.asr.encoder.hubert_encoder import FairseqHubertEncoder
 
-from feature_loader import MfccFeatureReader
-from feature_loader import HubertFeatureReader
-
 logging.basicConfig(
     level=logging.DEBUG,
     format="%(asctime)s (%(module)s:%(lineno)d) %(levelname)s: %(message)s",
diff --git a/egs2/TEMPLATE/st1/st.sh b/egs2/TEMPLATE/st1/st.sh
index 895667e1525..b37cd3c5f22 100755
--- a/egs2/TEMPLATE/st1/st.sh
+++ b/egs2/TEMPLATE/st1/st.sh
@@ -111,6 +111,7 @@ hf_repo=
 
 # Decoding related
 use_k2=false      # Whether to use k2 based decoder
+use_streaming=false # Whether to use streaming decoding
 batch_size=1
 inference_tag=    # Suffix to the result dir for decoding.
 inference_config= # Config for decoding.
@@ -138,7 +139,6 @@ lm_test_text=    # Text file path of language model evaluation set.
 nlsyms_txt=none  # Non-linguistic symbol list if existing.
 cleaner=none     # Text cleaner.
 g2p=none         # g2p method (needed if token_type=phn).
-lang=noinfo      # The language type of corpus.
 score_opts=                # The options given to sclite scoring
 local_score_opts=          # The options given to local/score.sh.
 st_speech_fold_length=800 # fold_length for speech data during ST training.
@@ -249,7 +249,6 @@ Options:
     --nlsyms_txt    # Non-linguistic symbol list if existing (default="${nlsyms_txt}").
     --cleaner       # Text cleaner (default="${cleaner}").
     --g2p           # g2p method (default="${g2p}").
-    --lang          # The language type of corpus (default=${lang}).
     --score_opts             # The options given to sclite scoring (default="{score_opts}").
     --local_score_opts       # The options given to local/score.sh (default="{local_score_opts}").
     --st_speech_fold_length # fold_length for speech data during ST training (default="${st_speech_fold_length}").
@@ -306,11 +305,7 @@ utt_extra_files="text.${src_case}.${src_lang} text.${tgt_case}.${tgt_lang}"
 [ -z "${lm_test_text}" ] && lm_test_text="${data_feats}/${test_sets%% *}/text.${tgt_case}.${tgt_lang}"
 
 # Check tokenization type
-if [ "${lang}" != noinfo ]; then
-    token_listdir=data/${lang}_token_list
-else
-    token_listdir=data/token_list
-fi
+token_listdir=data/${src_lang}_${tgt_lang}_token_list
 # The tgt bpedir is set for all cases when using bpe
 tgt_bpedir="${token_listdir}/tgt_bpe_${tgt_bpemode}${tgt_nbpe}"
 tgt_bpeprefix="${tgt_bpedir}"/bpe
@@ -385,11 +380,7 @@ if [ -z "${st_tag}" ]; then
     else
         st_tag="train_${feats_type}"
     fi
-    if [ "${lang}" != noinfo ]; then
-        st_tag+="_${lang}_${tgt_token_type}_${tgt_case}"
-    else
-        st_tag+="_${tgt_token_type}_${tgt_case}"
-    fi
+    st_tag+="_${src_lang}_${tgt_lang}_${tgt_token_type}_${tgt_case}"
     if [ "${tgt_token_type}" = bpe ]; then
         st_tag+="${tgt_nbpe}"
     fi
@@ -407,11 +398,7 @@ if [ -z "${lm_tag}" ]; then
     else
         lm_tag="train"
     fi
-    if [ "${lang}" != noinfo ]; then
-        lm_tag+="_${lang}_${lm_token_type}"
-    else
-        lm_tag+="_${lm_token_type}"
-    fi
+    lm_tag+="_${src_lang}_${tgt_lang}_${lm_token_type}"
     if [ "${lm_token_type}" = bpe ]; then
         lm_tag+="${tgt_nbpe}"
     fi
@@ -423,11 +410,7 @@ fi
 
 # The directory used for collect-stats mode
 if [ -z "${st_stats_dir}" ]; then
-    if [ "${lang}" != noinfo ]; then
-        st_stats_dir="${expdir}/st_stats_${feats_type}_${lang}_${tgt_token_type}"
-    else
-        st_stats_dir="${expdir}/st_stats_${feats_type}_${tgt_token_type}"
-    fi
+    st_stats_dir="${expdir}/st_stats_${feats_type}_${src_lang}_${tgt_lang}_${tgt_token_type}"
     if [ "${tgt_token_type}" = bpe ]; then
         st_stats_dir+="${tgt_nbpe}"
     fi
@@ -436,11 +419,7 @@ if [ -z "${st_stats_dir}" ]; then
     fi
 fi
 if [ -z "${lm_stats_dir}" ]; then
-    if [ "${lang}" != noinfo ]; then
-        lm_stats_dir="${expdir}/lm_stats_${lang}_${lm_token_type}"
-    else
-        lm_stats_dir="${expdir}/lm_stats_${lm_token_type}"
-    fi
+    lm_stats_dir="${expdir}/lm_stats_${src_lang}_${tgt_lang}_${lm_token_type}"
     if [ "${lm_token_type}" = bpe ]; then
         lm_stats_dir+="${tgt_nbpe}"
     fi
@@ -504,9 +483,9 @@ if ! "${skip_data_prep}"; then
             done
             utils/combine_data.sh --extra_files "${utt_extra_files}" "data/${train_set}_sp" ${_dirs}
             for extra_file in ${utt_extra_files}; do
-                python pyscripts/utils/remove_duplicate_keys.py data/"${train_set}_sp"/${extra_file} > data/"${train_set}_sp"/${extra_file}.tmp 
+                python pyscripts/utils/remove_duplicate_keys.py data/"${train_set}_sp"/${extra_file} > data/"${train_set}_sp"/${extra_file}.tmp
                 mv data/"${train_set}_sp"/${extra_file}.tmp data/"${train_set}_sp"/${extra_file}
-            done 
+            done
         else
            log "Skip stage 2: Speed perturbation"
         fi
@@ -539,11 +518,11 @@ if ! "${skip_data_prep}"; then
                 # expand the utt_extra_files for multi-references
                 expand_utt_extra_files=""
                 for extra_file in ${utt_extra_files}; do
-                    # with regex to suuport multi-references
+                    # with regex to support multi-references
                     for single_file in $(ls data/"${dset}"/${extra_file}*); do
                         cp ${single_file} "${data_feats}${_suf}/${dset}"
                         expand_utt_extra_files="${expand_utt_extra_files} $(basename ${single_file})"
-                    done 
+                    done
                 done
                 echo "${expand_utt_extra_files}"
                 utils/fix_data_dir.sh --utt_extra_files "${expand_utt_extra_files}" "${data_feats}${_suf}/${dset}"
@@ -584,11 +563,11 @@ if ! "${skip_data_prep}"; then
                 # expand the utt_extra_files for multi-references
                 expand_utt_extra_files=""
                 for extra_file in ${utt_extra_files}; do
-                    # with regex to suuport multi-references
+                    # with regex to support multi-references
                     for single_file in $(ls data/"${dset}"/${extra_file}*); do
                         cp ${single_file} "${data_feats}${_suf}/${dset}"
                         expand_utt_extra_files="${expand_utt_extra_files} $(basename ${single_file})"
-                    done 
+                    done
                 done
                 for extra_file in ${expand_utt_extra_files}; do
                     LC_ALL=C sort -u -k1,1 "${data_feats}${_suf}/${dset}/${extra_file}" -o "${data_feats}${_suf}/${dset}/${extra_file}"
@@ -633,11 +612,11 @@ if ! "${skip_data_prep}"; then
                 # expand the utt_extra_files for multi-references
                 expand_utt_extra_files=""
                 for extra_file in ${utt_extra_files}; do
-                    # with regex to suuport multi-references
+                    # with regex to support multi-references
                     for single_file in $(ls data/"${dset}"/${extra_file}*); do
                         cp ${single_file} "${data_feats}${_suf}/${dset}"
                         expand_utt_extra_files="${expand_utt_extra_files} $(basename ${single_file})"
-                    done 
+                    done
                 done
                 utils/fix_data_dir.sh --utt_extra_files "${expand_utt_extra_files}*" "${data_feats}${_suf}/${dset}"
                 for extra_file in ${expand_utt_extra_files}; do
@@ -716,20 +695,23 @@ if ! "${skip_data_prep}"; then
             fi
 
             # Remove empty text
-            <"${data_feats}/org/${dset}/text" \
-                awk ' { if( NF != 1 ) print $0; } ' >"${data_feats}/${dset}/text"
+            for utt_extra_file in ${utt_extra_files}; do
+                <"${data_feats}/org/${dset}/${utt_extra_file}" \
+                    awk ' { if( NF != 1 ) print $0; } ' > "${data_feats}/${dset}/${utt_extra_file}"
+            done
 
             # fix_data_dir.sh leaves only utts which exist in all files
             utils/fix_data_dir.sh --utt_extra_files "${utt_extra_files}" "${data_feats}/${dset}"
             for utt_extra_file in ${utt_extra_files}; do
                 python pyscripts/utils/remove_duplicate_keys.py ${data_feats}/${dset}/${utt_extra_file} \
-                    > ${data_feats}/${dset}/${utt_extra_file}.tmp 
+                    > ${data_feats}/${dset}/${utt_extra_file}.tmp
                 mv ${data_feats}/${dset}/${utt_extra_file}.tmp ${data_feats}/${dset}/${utt_extra_file}
-            done 
+            done
         done
 
         # shellcheck disable=SC2002
-        cat ${lm_train_text} | awk ' { if( NF != 1 ) print $0; } ' > "${data_feats}/lm_train.txt"
+        cat ${lm_train_text} | awk ' { if( NF != 1 ) print $0; } ' \
+            > "${data_feats}/lm_train.${src_lang}.${tgt_case}.${tgt_lang}.txt"
     fi
 
     if [ ${stage} -le 5 ] && [ ${stop_stage} -ge 5 ]; then
@@ -802,10 +784,10 @@ if ! "${skip_data_prep}"; then
 
         # Create word-list for word-LM training
         if ${use_word_lm} && [ "${tgt_token_type}" != word ]; then
-            log "Generate word level token_list from ${data_feats}/lm_train.txt"
+            log "Generate word level token_list from ${data_feats}/lm_train.${src_lang}.${tgt_case}.${tgt_lang}.txt"
             ${python} -m espnet2.bin.tokenize_text \
                 --token_type word \
-                --input "${data_feats}/lm_train.txt" --output "${lm_token_list}" \
+                --input "${data_feats}/lm_train.${src_lang}.${tgt_case}.${tgt_lang}.txt" --output "${lm_token_list}" \
                 --field 2- \
                 --cleaner "${cleaner}" \
                 --g2p "${g2p}" \
@@ -891,7 +873,7 @@ fi
 if ! "${skip_train}"; then
     if "${use_lm}"; then
         if [ ${stage} -le 6 ] && [ ${stop_stage} -ge 6 ]; then
-            log "Stage 6: LM collect stats: train_set=${data_feats}/lm_train.txt, dev_set=${lm_dev_text}"
+            log "Stage 6: LM collect stats: train_set=${data_feats}/lm_train.${src_lang}.${tgt_case}.${tgt_lang}.txt, dev_set=${lm_dev_text}"
 
             _opts=
             if [ -n "${lm_config}" ]; then
@@ -904,9 +886,9 @@ if ! "${skip_train}"; then
             _logdir="${lm_stats_dir}/logdir"
             mkdir -p "${_logdir}"
             # Get the minimum number among ${nj} and the number lines of input files
-            _nj=$(min "${nj}" "$(<${data_feats}/lm_train.txt wc -l)" "$(<${lm_dev_text} wc -l)")
+            _nj=$(min "${nj}" "$(<${data_feats}/lm_train.${src_lang}.${tgt_case}.${tgt_lang}.txt wc -l)" "$(<${lm_dev_text} wc -l)")
 
-            key_file="${data_feats}/lm_train.txt"
+            key_file="${data_feats}/lm_train.${src_lang}.${tgt_case}.${tgt_lang}.txt"
             split_scps=""
             for n in $(seq ${_nj}); do
                 split_scps+=" ${_logdir}/train.${n}.scp"
@@ -930,7 +912,7 @@ if ! "${skip_train}"; then
             log "LM collect-stats started... log: '${_logdir}/stats.*.log'"
             # NOTE: --*_shape_file doesn't require length information if --batch_type=unsorted,
             #       but it's used only for deciding the sample ids.
-            # shellcheck disable=SC2086
+            # shellcheck disable=SC2046,SC2086
             ${train_cmd} JOB=1:"${_nj}" "${_logdir}"/stats.JOB.log \
                 ${python} -m espnet2.bin.lm_train \
                     --collect_stats true \
@@ -941,12 +923,12 @@ if ! "${skip_train}"; then
                     --non_linguistic_symbols "${nlsyms_txt}" \
                     --cleaner "${cleaner}" \
                     --g2p "${g2p}" \
-                    --train_data_path_and_name_and_type "${data_feats}/lm_train.txt,text,text" \
+                    --train_data_path_and_name_and_type "${data_feats}/lm_train.${src_lang}.${tgt_case}.${tgt_lang}.txt,text,text" \
                     --valid_data_path_and_name_and_type "${lm_dev_text},text,text" \
                     --train_shape_file "${_logdir}/train.JOB.scp" \
                     --valid_shape_file "${_logdir}/dev.JOB.scp" \
                     --output_dir "${_logdir}/stats.JOB" \
-                    ${_opts} ${lm_args} || { cat "${_logdir}"/stats.1.log; exit 1; }
+                    ${_opts} ${lm_args} || { cat $(grep -l -i error "${_logdir}"/stats.*.log) ; exit 1; }
 
             # 4. Aggregate shape files
             _opts=
@@ -968,7 +950,7 @@ if ! "${skip_train}"; then
 
 
         if [ ${stage} -le 7 ] && [ ${stop_stage} -ge 7 ]; then
-            log "Stage 7: LM Training: train_set=${data_feats}/lm_train.txt, dev_set=${lm_dev_text}"
+            log "Stage 7: LM Training: train_set=${data_feats}/lm_train.${src_lang}.${tgt_case}.${tgt_lang}.txt, dev_set=${lm_dev_text}"
 
             _opts=
             if [ -n "${lm_config}" ]; then
@@ -986,7 +968,7 @@ if ! "${skip_train}"; then
                 if [ ! -f "${_split_dir}/.done" ]; then
                     rm -f "${_split_dir}/.done"
                     ${python} -m espnet2.bin.split_scps \
-                      --scps "${data_feats}/lm_train.txt" "${lm_stats_dir}/train/text_shape.${lm_token_type}" \
+                      --scps "${data_feats}/lm_train.${src_lang}.${tgt_case}.${tgt_lang}.txt" "${lm_stats_dir}/train/text_shape.${lm_token_type}" \
                       --num_splits "${num_splits_lm}" \
                       --output_dir "${_split_dir}"
                     touch "${_split_dir}/.done"
@@ -994,12 +976,12 @@ if ! "${skip_train}"; then
                     log "${_split_dir}/.done exists. Spliting is skipped"
                 fi
 
-                _opts+="--train_data_path_and_name_and_type ${_split_dir}/lm_train.txt,text,text "
+                _opts+="--train_data_path_and_name_and_type ${_split_dir}/lm_train.${src_lang}.${tgt_case}.${tgt_lang}.txt,text,text "
                 _opts+="--train_shape_file ${_split_dir}/text_shape.${lm_token_type} "
                 _opts+="--multiple_iterator true "
 
             else
-                _opts+="--train_data_path_and_name_and_type ${data_feats}/lm_train.txt,text,text "
+                _opts+="--train_data_path_and_name_and_type ${data_feats}/lm_train.${src_lang}.${tgt_case}.${tgt_lang}.txt,text,text "
                 _opts+="--train_shape_file ${lm_stats_dir}/train/text_shape.${lm_token_type} "
             fi
 
@@ -1072,9 +1054,9 @@ if ! "${skip_train}"; then
     fi
     if [ ${stage} -le 9 ] && [ ${stop_stage} -ge 9 ]; then
         if "${use_ngram}"; then
-            log "Stage 9: Ngram Training: train_set=${data_feats}/lm_train.txt"
-            cut -f 2 -d " " ${data_feats}/lm_train.txt | lmplz -S "20%" --discount_fallback -o ${ngram_num} - >${ngram_exp}/${ngram_num}gram.arpa
-            build_binary -s ${ngram_exp}/${ngram_num}gram.arpa ${ngram_exp}/${ngram_num}gram.bin 
+            log "Stage 9: Ngram Training: train_set=${data_feats}/lm_train.${src_lang}.${tgt_case}.${tgt_lang}.txt"
+            cut -f 2 -d " " ${data_feats}/lm_train.${src_lang}.${tgt_case}.${tgt_lang}.txt | lmplz -S "20%" --discount_fallback -o ${ngram_num} - >${ngram_exp}/${ngram_num}gram.arpa
+            build_binary -s ${ngram_exp}/${ngram_num}gram.arpa ${ngram_exp}/${ngram_num}gram.bin
         else
             log "Stage 9: Skip ngram stages: use_ngram=${use_ngram}"
         fi
@@ -1412,7 +1394,11 @@ if ! "${skip_eval}"; then
             key_file=${_data}/${_scp}
             split_scps=""
             _nj=$(min "${inference_nj}" "$(<${key_file} wc -l)")
-            st_inference_tool="espnet2.bin.st_inference"
+            if "${use_streaming}"; then
+                st_inference_tool="espnet2.bin.st_inference_streaming"
+            else
+                st_inference_tool="espnet2.bin.st_inference"
+            fi
 
             for n in $(seq "${_nj}"); do
                 split_scps+=" ${_logdir}/keys.${n}.scp"
@@ -1422,7 +1408,7 @@ if ! "${skip_eval}"; then
 
             # 2. Submit decoding jobs
             log "Decoding started... log: '${_logdir}/st_inference.*.log'"
-            # shellcheck disable=SC2086
+            # shellcheck disable=SC2046,SC2086
             ${_cmd} --gpu "${_ngpu}" JOB=1:"${_nj}" "${_logdir}"/st_inference.JOB.log \
                 ${python} -m ${st_inference_tool} \
                     --batch_size ${batch_size} \
@@ -1432,7 +1418,7 @@ if ! "${skip_eval}"; then
                     --st_train_config "${st_exp}"/config.yaml \
                     --st_model_file "${st_exp}"/"${inference_st_model}" \
                     --output_dir "${_logdir}"/output.JOB \
-                    ${_opts} ${inference_args}
+                    ${_opts} ${inference_args} || { cat $(grep -l -i error "${_logdir}"/st_inference.*.log) ; exit 1; }
 
             # 3. Concatenates the output files from each jobs
             for f in token token_int score text; do
@@ -1478,29 +1464,35 @@ if ! "${skip_eval}"; then
                             ) \
                 <(<"${_data}/utt2spk" awk '{ print "(" $2 "-" $1 ")" }') \
                     >"${_scoredir}/hyp.trn.org"
-            
+
             # remove utterance id
-            perl -pe 's/\([^\)]+\)//g;' "${_scoredir}/ref.trn.org" > "${_scoredir}/ref.trn"
-            perl -pe 's/\([^\)]+\)//g;' "${_scoredir}/hyp.trn.org" > "${_scoredir}/hyp.trn"
+            perl -pe 's/\([^\)]+\)$//g;' "${_scoredir}/ref.trn.org" > "${_scoredir}/ref.trn"
+            perl -pe 's/\([^\)]+\)$//g;' "${_scoredir}/hyp.trn.org" > "${_scoredir}/hyp.trn"
 
             # detokenizer
             detokenizer.perl -l ${tgt_lang} -q < "${_scoredir}/ref.trn" > "${_scoredir}/ref.trn.detok"
             detokenizer.perl -l ${tgt_lang} -q < "${_scoredir}/hyp.trn" > "${_scoredir}/hyp.trn.detok"
 
+            # rotate result files
+            if [ ${tgt_case} = "tc" ]; then
+                pyscripts/utils/rotate_logfile.py ${_scoredir}/result.tc.txt
+            fi
+            pyscripts/utils/rotate_logfile.py ${_scoredir}/result.lc.txt
+
             if [ ${tgt_case} = "tc" ]; then
-                echo "Case sensitive BLEU result (single-reference)" >> ${_scoredir}/result.tc.txt
+                echo "Case sensitive BLEU result (single-reference)" > ${_scoredir}/result.tc.txt
                 sacrebleu "${_scoredir}/ref.trn.detok" \
                           -i "${_scoredir}/hyp.trn.detok" \
                           -m bleu chrf ter \
                           >> ${_scoredir}/result.tc.txt
-                
+
                 log "Write a case-sensitive BLEU (single-reference) result in ${_scoredir}/result.tc.txt"
             fi
 
             # detokenize & remove punctuation except apostrophe
             remove_punctuation.pl < "${_scoredir}/ref.trn.detok" > "${_scoredir}/ref.trn.detok.lc.rm"
             remove_punctuation.pl < "${_scoredir}/hyp.trn.detok" > "${_scoredir}/hyp.trn.detok.lc.rm"
-            echo "Case insensitive BLEU result (single-reference)" >> ${_scoredir}/result.lc.txt
+            echo "Case insensitive BLEU result (single-reference)" > ${_scoredir}/result.lc.txt
             sacrebleu -lc "${_scoredir}/ref.trn.detok.lc.rm" \
                       -i "${_scoredir}/hyp.trn.detok.lc.rm" \
                       -m bleu chrf ter \
@@ -1525,9 +1517,9 @@ if ! "${skip_eval}"; then
                                 ) \
                         <(<"${_data}/utt2spk" awk '{ print "(" $2 "-" $1 ")" }') \
                             >"${_scoredir}/ref.trn.org.${ref_idx}"
-                    
-                    # 
-                    perl -pe 's/\([^\)]+\)//g;' "${_scoredir}/ref.trn.org.${ref_idx}" > "${_scoredir}/ref.trn.${ref_idx}"
+
+                    # remove utterance id
+                    perl -pe 's/\([^\)]+\)$//g;' "${_scoredir}/ref.trn.org.${ref_idx}" > "${_scoredir}/ref.trn.${ref_idx}"
                     detokenizer.perl -l ${tgt_lang} -q < "${_scoredir}/ref.trn.${ref_idx}" > "${_scoredir}/ref.trn.detok.${ref_idx}"
                     remove_punctuation.pl < "${_scoredir}/ref.trn.detok.${ref_idx}" > "${_scoredir}/ref.trn.detok.lc.rm.${ref_idx}"
                     case_sensitive_refs="${case_sensitive_refs} ${_scoredir}/ref.trn.detok.${ref_idx}"
@@ -1552,7 +1544,7 @@ if ! "${skip_eval}"; then
 
         # Show results in Markdown syntax
         scripts/utils/show_translation_result.sh --case $tgt_case "${st_exp}" > "${st_exp}"/RESULTS.md
-        cat "${cat_exp}"/RESULTS.md
+        cat "${st_exp}"/RESULTS.md
     fi
 else
     log "Skip the evaluation stages"
@@ -1641,7 +1633,7 @@ EOF
         # shellcheck disable=SC2086
         espnet_model_zoo_upload \
             --file "${packed_model}" \
-            --title "ESPnet2 pretrained model, ${_model_name}, fs=${fs}, lang=${lang}" \
+            --title "ESPnet2 pretrained model, ${_model_name}, fs=${fs}, lang=${src_lang}_${tgt_lang}" \
             --description_file "${st_exp}"/description \
             --creator_name "${_creator_name}" \
             --license "CC-BY-4.0" \
@@ -1662,11 +1654,11 @@ if ! "${skip_upload_hf}"; then
         gitlfs=$(git lfs --version 2> /dev/null || true)
         [ -z "${gitlfs}" ] && \
             log "ERROR: You need to install git-lfs first" && \
-            exit 1             
-  
+            exit 1
+
         dir_repo=${expdir}/hf_${hf_repo//"/"/"_"}
         [ ! -d "${dir_repo}" ] && git clone https://huggingface.co/${hf_repo} ${dir_repo}
-  
+
         if command -v git &> /dev/null; then
             _creator_name="$(git config user.name)"
             _checkout="git checkout $(git show -s --format=%H)"
@@ -1679,13 +1671,13 @@ if ! "${skip_upload_hf}"; then
         # foo/asr1 -> foo
         _corpus="${_task%/*}"
         _model_name="${_creator_name}/${_corpus}_$(basename ${packed_model} .zip)"
-  
+
         # copy files in ${dir_repo}
         unzip -o ${packed_model} -d ${dir_repo}
         # Generate description file
         # shellcheck disable=SC2034
         hf_task=speech-translation
-        # shellcheck disable=SC2034     
+        # shellcheck disable=SC2034
         espnet_task=ST
         # shellcheck disable=SC2034
         task_exp=${st_exp}
diff --git a/egs2/TEMPLATE/tts1/README.md b/egs2/TEMPLATE/tts1/README.md
index a94a6cd5913..f7d3258f497 100644
--- a/egs2/TEMPLATE/tts1/README.md
+++ b/egs2/TEMPLATE/tts1/README.md
@@ -726,6 +726,7 @@ You can train the following models by changing `*.yaml` config for `--train_conf
 - [FastSpeech2](https://arxiv.org/abs/2006.04558) ([FastPitch](https://arxiv.org/abs/2006.06873))
 - [Conformer](https://arxiv.org/abs/2005.08100)-based FastSpeech / FastSpeech2
 - [VITS](https://arxiv.org/abs/2106.06103)
+- [JETS](https://arxiv.org/abs/2203.16852)
 
 You can find example configs of the above models in [`egs2/ljspeech/tts1/conf/tuning`](../../ljspeech/tts1/conf/tuning).
 
@@ -742,6 +743,11 @@ You can find example configs of the above models in:
 - [`egs2/vctk/tts1/conf/tuning`](../../vctk/tts1/conf/tuning).
 - [`egs2/libritts/tts1/conf/tuning`](../../vctk/libritts/conf/tuning).
 
+And now we support other toolkit's xvector.
+Please check the following options.
+
+https://github.com/espnet/espnet/blob/df053b8c13c26fe289fc882751801fd781e9d43e/egs2/TEMPLATE/tts1/tts.sh#L69-L71
+
 ## FAQ
 
 ### ESPnet1 model is compatible with ESPnet2?
diff --git a/egs2/TEMPLATE/tts1/tts.sh b/egs2/TEMPLATE/tts1/tts.sh
index 0bd2e0debb8..13a3aaf2d5d 100755
--- a/egs2/TEMPLATE/tts1/tts.sh
+++ b/egs2/TEMPLATE/tts1/tts.sh
@@ -644,7 +644,7 @@ if ! "${skip_train}"; then
 
         # 3. Submit jobs
         log "TTS collect_stats started... log: '${_logdir}/stats.*.log'"
-        # shellcheck disable=SC2086
+        # shellcheck disable=SC2046,SC2086
         ${train_cmd} JOB=1:"${_nj}" "${_logdir}"/stats.JOB.log \
             ${python} -m "espnet2.bin.${tts_task}_train" \
                 --collect_stats true \
@@ -665,7 +665,7 @@ if ! "${skip_train}"; then
                 --train_shape_file "${_logdir}/train.JOB.scp" \
                 --valid_shape_file "${_logdir}/valid.JOB.scp" \
                 --output_dir "${_logdir}/stats.JOB" \
-                ${_opts} ${train_args} || { cat "${_logdir}"/stats.1.log; exit 1; }
+                ${_opts} ${train_args} || { cat $(grep -l -i error "${_logdir}"/stats.*.log) ; exit 1; }
 
         # 4. Aggregate shape files
         _opts=
@@ -1008,7 +1008,7 @@ if ! "${skip_eval}"; then
 
             # 3. Submit decoding jobs
             log "Decoding started... log: '${_logdir}/tts_inference.*.log'"
-            # shellcheck disable=SC2086
+            # shellcheck disable=SC2046,SC2086
             ${_cmd} --gpu "${_ngpu}" JOB=1:"${_nj}" "${_logdir}"/tts_inference.JOB.log \
                 ${python} -m espnet2.bin.tts_inference \
                     --ngpu "${_ngpu}" \
@@ -1019,7 +1019,7 @@ if ! "${skip_eval}"; then
                     --train_config "${tts_exp}"/config.yaml \
                     --output_dir "${_logdir}"/output.JOB \
                     --vocoder_file "${vocoder_file}" \
-                    ${_opts} ${_ex_opts} ${inference_args}
+                    ${_opts} ${_ex_opts} ${inference_args} || { cat $(grep -l -i error "${_logdir}"/tts_inference.*.log) ; exit 1; }
 
             # 4. Concatenates the output files from each jobs
             if [ -e "${_logdir}/output.${_nj}/norm" ]; then
diff --git a/egs2/accented_french_openslr57/asr1/local/remove_missing.py b/egs2/accented_french_openslr57/asr1/local/remove_missing.py
index 937144f75d8..1469b4a55bb 100644
--- a/egs2/accented_french_openslr57/asr1/local/remove_missing.py
+++ b/egs2/accented_french_openslr57/asr1/local/remove_missing.py
@@ -4,7 +4,6 @@
 import argparse
 import os
 
-
 parser = argparse.ArgumentParser(description="Normalize test text.")
 parser.add_argument("--folder", type=str, help="path of download folder")
 parser.add_argument("--train", type=str, help="path of train folder")
diff --git a/egs2/aishell3/tts1/local/data_prep.py b/egs2/aishell3/tts1/local/data_prep.py
index 706c28d5642..679232b9f3e 100644
--- a/egs2/aishell3/tts1/local/data_prep.py
+++ b/egs2/aishell3/tts1/local/data_prep.py
@@ -1,5 +1,6 @@
 import argparse
 import os
+
 from espnet2.utils.types import str2bool
 
 SPK_LABEL_LEN = 7
diff --git a/egs2/aishell4/enh1/local/generate_fe_trainingdata.py.patch b/egs2/aishell4/enh1/local/generate_fe_trainingdata.py.patch
index a7666a5a756..9a23ef72207 100644
--- a/egs2/aishell4/enh1/local/generate_fe_trainingdata.py.patch
+++ b/egs2/aishell4/enh1/local/generate_fe_trainingdata.py.patch
@@ -2,9 +2,9 @@
 +++ generate_fe_trainingdata.new.py
 @@ -1,8 +1,8 @@
  #!/usr/bin/env python
- 
+
 -import io
-+from distutils.version import LooseVersion
++from packaging.version import parse as V
  import os
 -import subprocess
 +import sys
@@ -14,17 +14,17 @@
 @@ -12,6 +12,10 @@
  import librosa
  import argparse
- 
+
 +
-+is_py_3_3_plus = LooseVersion(sys.version) > LooseVersion("3.3")
++is_py_3_3_plus = V("{}.{}.{}".format(*sys.version_info[:3])) > V("3.3")
 +
 +
  def get_line_context(file_path, line_number):
      return linecache.getline(file_path, line_number).strip()
- 
+
 @@ -119,7 +123,7 @@
          return data / max_val
- 
+
  def add_noise(clean, noise, rir, snr):
 -    random.seed(time.clock())
 +    random.seed(time.perf_counter() if is_py_3_3_plus else time.clock())
@@ -32,9 +32,9 @@
          noise = add_reverb(noise, rir[:, 16:24])
          noise = noise[:-7999]
 @@ -189,7 +193,7 @@
- 
+
      for i in range(args.wavnum):
- 
+
 -        random.seed(time.clock())
 +        random.seed(time.perf_counter() if is_py_3_3_plus else time.clock())
          wav1idx = random.randint(0, len(open(wavlist1,'r').readlines())-1)
diff --git a/egs2/aishell4/enh1/local/prepare_audioset_category_list.py b/egs2/aishell4/enh1/local/prepare_audioset_category_list.py
index 2c9a09bb0c6..af591399f3f 100644
--- a/egs2/aishell4/enh1/local/prepare_audioset_category_list.py
+++ b/egs2/aishell4/enh1/local/prepare_audioset_category_list.py
@@ -2,9 +2,9 @@
 
 # Copyright 2022  Shanghai Jiao Tong University (Author: Wangyou Zhang)
 # Apache 2.0
-from pathlib import Path
 import re
 import sys
+from pathlib import Path
 
 
 def prepare_audioset_category(audio_list, audioset_dir, output_file, skip_csv_rows=3):
diff --git a/egs2/aishell4/enh1/local/split_train_dev.py b/egs2/aishell4/enh1/local/split_train_dev.py
index 8961c40b12d..e7e7d75e239 100755
--- a/egs2/aishell4/enh1/local/split_train_dev.py
+++ b/egs2/aishell4/enh1/local/split_train_dev.py
@@ -2,14 +2,12 @@
 
 # Copyright 2022  Shanghai Jiao Tong University (Authors: Wangyou Zhang)
 # Apache 2.0
-from collections import Counter
-from collections import defaultdict
-from fractions import Fraction
 import math
-from pathlib import Path
 import random
-from typing import List
-from typing import Tuple
+from collections import Counter, defaultdict
+from fractions import Fraction
+from pathlib import Path
+from typing import List, Tuple
 
 
 def int_or_float_or_numstr(value):
diff --git a/egs2/aishell4/enh1/local/split_train_dev_by_column.py b/egs2/aishell4/enh1/local/split_train_dev_by_column.py
index ff50a9407a7..de48ce73b33 100755
--- a/egs2/aishell4/enh1/local/split_train_dev_by_column.py
+++ b/egs2/aishell4/enh1/local/split_train_dev_by_column.py
@@ -3,13 +3,11 @@
 # Copyright 2022  Shanghai Jiao Tong University (Authors: Wangyou Zhang)
 # Apache 2.0
 import argparse
+import random
 from collections import defaultdict
 from pathlib import Path
-import random
 
-from split_train_dev import int_or_float_or_numstr
-from split_train_dev import split_train_dev
-from split_train_dev import split_train_dev_v2
+from split_train_dev import int_or_float_or_numstr, split_train_dev, split_train_dev_v2
 
 
 def get_parser():
diff --git a/egs2/aishell4/enh1/local/split_train_dev_by_prefix.py b/egs2/aishell4/enh1/local/split_train_dev_by_prefix.py
index c04cfb1a584..c997d9774a8 100755
--- a/egs2/aishell4/enh1/local/split_train_dev_by_prefix.py
+++ b/egs2/aishell4/enh1/local/split_train_dev_by_prefix.py
@@ -3,13 +3,11 @@
 # Copyright 2022  Shanghai Jiao Tong University (Authors: Wangyou Zhang)
 # Apache 2.0
 import argparse
+import random
 from collections import defaultdict
 from pathlib import Path
-import random
 
-from split_train_dev import int_or_float_or_numstr
-from split_train_dev import split_train_dev
-from split_train_dev import split_train_dev_v2
+from split_train_dev import int_or_float_or_numstr, split_train_dev, split_train_dev_v2
 
 
 def get_parser():
diff --git a/egs2/bn_openslr53/asr1/local/data_prep.py b/egs2/bn_openslr53/asr1/local/data_prep.py
index 4cb5a47596b..5d831435277 100644
--- a/egs2/bn_openslr53/asr1/local/data_prep.py
+++ b/egs2/bn_openslr53/asr1/local/data_prep.py
@@ -8,7 +8,6 @@
 import os
 import random
 
-
 if __name__ == "__main__":
     parser = argparse.ArgumentParser()
     parser.add_argument("-d", help="downloads directory", type=str, default="downloads")
diff --git a/egs2/bur_openslr80/asr1/local/data_prep.py b/egs2/bur_openslr80/asr1/local/data_prep.py
index 98180ea4b2e..654779696aa 100644
--- a/egs2/bur_openslr80/asr1/local/data_prep.py
+++ b/egs2/bur_openslr80/asr1/local/data_prep.py
@@ -8,7 +8,6 @@
 import os
 import random
 
-
 if __name__ == "__main__":
     parser = argparse.ArgumentParser()
     parser.add_argument("-d", help="downloads directory", type=str, default="downloads")
diff --git a/egs2/catslu/asr1/local/data_prep.py b/egs2/catslu/asr1/local/data_prep.py
index 2ce83727a07..55bf6d2d979 100755
--- a/egs2/catslu/asr1/local/data_prep.py
+++ b/egs2/catslu/asr1/local/data_prep.py
@@ -4,11 +4,11 @@
 #           2021  Carnegie Mellon University
 # Apache 2.0
 
+import json
 import os
+import string as string_lib
 import sys
 from pathlib import Path
-import json
-import string as string_lib
 
 if len(sys.argv) != 2:
     print("Usage: python data_prep.py [catslu_root]")
diff --git a/egs2/chime4/asr1/conf/tuning/train_asr_transformer_wavlm_lr1e-3_specaug_accum1_preenc128_warmup20k.yaml b/egs2/chime4/asr1/conf/tuning/train_asr_transformer_wavlm_lr1e-3_specaug_accum1_preenc128_warmup20k.yaml
new file mode 100644
index 00000000000..cee2e0c896d
--- /dev/null
+++ b/egs2/chime4/asr1/conf/tuning/train_asr_transformer_wavlm_lr1e-3_specaug_accum1_preenc128_warmup20k.yaml
@@ -0,0 +1,90 @@
+# minibatch related
+batch_type: folded
+batch_size: 32
+accum_grad: 1
+grad_clip: 5
+max_epoch: 50
+patience: none
+# The initialization method for model parameters
+init: xavier_uniform
+val_scheduler_criterion:
+- valid
+- loss
+best_model_criterion:
+-   - valid
+    - acc
+    - max
+keep_nbest_models: 10
+unused_parameters: true
+# SSL-based frontend is fixed during training for training efficiency,
+# however, the gradients are backprogated through frontend to the enhancement.
+freeze_param: [
+    "frontend.upstream"
+]
+
+# network architecture
+frontend: s3prl
+frontend_conf:
+    frontend_conf:
+        upstream: wavlm_large  # Note: If the upstream is changed, please change the input_size in the preencoder.
+    download_dir: ./hub
+    multilayer_feature: True
+
+preencoder: linear
+preencoder_conf:
+    input_size: 1024  # Note: If the upstream is changed, please change this value accordingly.
+    output_size: 128
+
+# encoder related
+encoder: transformer
+encoder_conf:
+    output_size: 256
+    attention_heads: 4
+    linear_units: 2048
+    num_blocks: 12
+    dropout_rate: 0.1
+    attention_dropout_rate: 0.0
+    input_layer: conv2d2
+    normalize_before: true
+
+# decoder related
+decoder: transformer
+decoder_conf:
+    input_layer: embed
+    attention_heads: 4
+    linear_units: 2048
+    num_blocks: 6
+    dropout_rate: 0.1
+    positional_dropout_rate: 0.0
+    self_attention_dropout_rate: 0.0
+    src_attention_dropout_rate: 0.0
+
+model_conf:
+    ctc_weight: 0.3
+    lsm_weight: 0.1
+    length_normalized_loss: false
+    extract_feats_in_collect_stats: false
+
+optim: adam
+optim_conf:
+    lr: 0.001
+scheduler: warmuplr
+scheduler_conf:
+    warmup_steps: 20000
+
+specaug: specaug
+specaug_conf:
+    apply_time_warp: true
+    time_warp_window: 5
+    time_warp_mode: bicubic
+    apply_freq_mask: true
+    freq_mask_width_range:
+    - 0
+    - 100
+    num_freq_mask: 4
+    apply_time_mask: true
+    time_mask_width_range:
+    - 0
+    - 40
+    num_time_mask: 2
+
diff --git a/egs2/chime4/asr1/local/sym_channel.py b/egs2/chime4/asr1/local/sym_channel.py
index 8a3bdcce2a9..dcffd487c4c 100644
--- a/egs2/chime4/asr1/local/sym_channel.py
+++ b/egs2/chime4/asr1/local/sym_channel.py
@@ -1,6 +1,6 @@
+import argparse
 import os
 from os import path
-import argparse
 
 
 def create_sym(data_dir, track, wav):
diff --git a/egs2/chime4/enh1/conf/tuning/train_enh_convtasnet_small.yaml b/egs2/chime4/enh1/conf/tuning/train_enh_convtasnet_small.yaml
new file mode 100644
index 00000000000..7c73d4c868f
--- /dev/null
+++ b/egs2/chime4/enh1/conf/tuning/train_enh_convtasnet_small.yaml
@@ -0,0 +1,64 @@
+optim: adam
+init: xavier_uniform
+max_epoch: 100
+batch_type: folded
+batch_size: 32
+iterator_type: chunk
+chunk_length: 32000
+num_workers: 4
+optim_conf:
+    lr: 1.0e-03
+    eps: 1.0e-08
+    weight_decay: 1.0e-05
+patience: 4
+val_scheduler_criterion:
+- valid
+- loss
+best_model_criterion:
+-   - valid
+    - si_snr
+    - max
+-   - valid
+    - loss
+    - min
+keep_nbest_models: 1
+scheduler: reducelronplateau
+scheduler_conf:
+    mode: min
+    factor: 0.5
+    patience: 3
+model_conf:
+    loss_type: si_snr
+encoder: conv
+encoder_conf:
+    channel: 256
+    kernel_size: 40
+    stride: 20
+decoder: conv
+decoder_conf:
+    channel: 256
+    kernel_size: 40
+    stride: 20
+separator: tcn
+separator_conf:
+    num_spk: 1
+    layer: 4
+    stack: 2
+    bottleneck_dim: 256
+    hidden_dim: 512
+    kernel: 3
+    causal: False
+    norm_type: "gLN"
+    nonlinear: relu
+criterions:
+  # The first criterion
+  - name: si_snr
+    conf:
+        eps: 1e-7
+    # the wrapper for the current criterion
+    # for single-talker case, we simplely use fixed_order wrapper
+    wrapper:
+      - type: fixed_order
+        wrapper_conf:
+          weight: 1.0
+
diff --git a/egs2/chime4/enh_asr1/README.md b/egs2/chime4/enh_asr1/README.md
new file mode 100644
index 00000000000..f01c087f211
--- /dev/null
+++ b/egs2/chime4/enh_asr1/README.md
@@ -0,0 +1,97 @@
+<!-- Generated by scripts/utils/show_asr_result.sh -->
+# RESULTS
+## Environments
+- date: `Thu Apr 28 00:09:17 EDT 2022`
+- python version: `3.7.11 (default, Jul 27 2021, 14:32:16)  [GCC 7.5.0]`
+- espnet version: `espnet 202204`
+- pytorch version: `pytorch 1.8.1`
+- Git hash: `44971ff962aae30c962226f1ba3d87de057ac00e`
+  - Commit date: `Wed Apr 27 10:13:03 2022 -0400`
+
+## enh_asr_train_enh_asr_convtasnet_init_noenhloss_wavlm_transformer_init_lr1e-4_accum1_adam_specaug_bypass0_raw_en_char
+- Pretrained model: https://huggingface.co/espnet/simpleoier_chime4_enh_asr_convtasnet_init_noenhloss_wavlm_transformer_init_raw_en_char
+### WER
+
+|dataset|Snt|Wrd|Corr|Sub|Del|Ins|Err|S.Err|
+|---|---|---|---|---|---|---|---|---|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/dt05_real_isolated_1ch_track|1640|27119|98.3|1.3|0.4|0.2|1.9|21.8|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/dt05_real_beamformit_2mics|1640|27119|98.5|1.2|0.3|0.2|1.7|19.6|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/dt05_real_beamformit_5mics|1640|27119|98.6|1.1|0.3|0.2|1.5|18.7|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/dt05_simu_isolated_1ch_track|1640|27120|97.2|2.1|0.7|0.3|3.1|28.9|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/dt05_simu_beamformit_2mics|1640|27120|97.9|1.5|0.5|0.2|2.3|25.2|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/dt05_simu_beamformit_5mics|1640|27120|98.4|1.2|0.4|0.1|1.7|19.9|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/et05_real_isolated_1ch_track|1320|21409|96.7|2.6|0.7|0.4|3.7|31.6|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/et05_real_beamformit_2mics|1320|21409|97.4|2.0|0.6|0.3|2.9|27.3|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/et05_real_beamformit_5mics|1320|21409|97.8|1.8|0.4|0.2|2.5|24.3|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/et05_simu_isolated_1ch_track|1320|21416|94.6|3.7|1.6|0.5|5.9|37.3|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/et05_simu_beamformit_2mics|1320|21416|96.6|2.5|1.0|0.3|3.7|32.5|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/et05_simu_beamformit_5mics|1320|21416|97.5|1.9|0.7|0.3|2.9|28.9|
+
+### CER
+
+|dataset|Snt|Wrd|Corr|Sub|Del|Ins|Err|S.Err|
+|---|---|---|---|---|---|---|---|---|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/dt05_real_isolated_1ch_track|1640|160390|99.4|0.2|0.4|0.2|0.8|21.8|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/dt05_real_beamformit_2mics|1640|160390|99.5|0.2|0.3|0.2|0.7|19.6|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/dt05_real_beamformit_5mics|1640|160390|99.6|0.1|0.3|0.2|0.6|18.7|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/dt05_simu_isolated_1ch_track|1640|160400|98.8|0.5|0.7|0.3|1.5|28.9|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/dt05_simu_beamformit_2mics|1640|160400|99.2|0.3|0.5|0.2|1.1|25.2|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/dt05_simu_beamformit_5mics|1640|160400|99.5|0.2|0.3|0.1|0.7|19.9|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/et05_real_isolated_1ch_track|1320|126796|98.6|0.6|0.8|0.4|1.8|31.7|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/et05_real_beamformit_2mics|1320|126796|98.9|0.4|0.7|0.3|1.4|27.3|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/et05_real_beamformit_5mics|1320|126796|99.1|0.4|0.5|0.2|1.1|24.3|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/et05_simu_isolated_1ch_track|1320|126812|97.0|1.2|1.9|0.6|3.7|37.3|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/et05_simu_beamformit_2mics|1320|126812|98.2|0.6|1.1|0.4|2.1|32.5|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/et05_simu_beamformit_5mics|1320|126812|98.8|0.4|0.8|0.3|1.5|28.9|
+
+### Enhancement
+
+|dataset|STOI|SDR|SI_SNR|
+|---|---|---|---|
+|dt05_simu_isolated_1ch_track|0.86|4.97|1.77|
+|et05_simu_isolated_1ch_track|0.85|5.45|0.88|
+
+
+## enh_asr_train_enh_asr_convtasnet_fbank_transformer_raw_en_char
+- Pretrained model: https://huggingface.co/espnet/simpleoier_chime4_enh_asr_train_enh_asr_convtasnet_fbank_transformer_raw_en_char
+
+### WER
+
+|dataset|Snt|Wrd|Corr|Sub|Del|Ins|Err|S.Err|
+|---|---|---|---|---|---|---|---|---|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/dt05_real_isolated_1ch_track|1640|27119|91.8|6.0|2.2|0.8|9.0|57.7|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/dt05_real_beamformit_2mics|1640|27119|93.0|5.2|1.8|0.6|7.7|53.3|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/dt05_real_beamformit_5mics|1640|27119|93.9|4.5|1.6|0.5|6.7|49.9|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/dt05_simu_isolated_1ch_track|1640|27120|89.9|7.6|2.4|1.0|11.1|59.7|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/dt05_simu_beamformit_2mics|1640|27120|92.2|6.0|1.9|0.7|8.6|55.5|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/dt05_simu_beamformit_5mics|1640|27120|93.6|4.9|1.5|0.6|7.1|51.6|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/et05_real_isolated_1ch_track|1320|21409|84.6|11.4|4.0|1.5|17.0|69.4|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/et05_real_beamformit_2mics|1320|21409|86.7|9.7|3.5|1.3|14.5|64.7|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/et05_real_beamformit_5mics|1320|21409|89.2|7.9|2.9|1.0|11.8|61.2|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/et05_simu_isolated_1ch_track|1320|21416|82.8|13.1|4.1|1.9|19.1|69.4|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/et05_simu_beamformit_2mics|1320|21416|86.0|10.5|3.5|1.5|15.5|67.5|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/et05_simu_beamformit_5mics|1320|21416|88.1|8.9|3.1|1.2|13.1|64.8|
+
+### CER
+
+|dataset|Snt|Wrd|Corr|Sub|Del|Ins|Err|S.Err|
+|---|---|---|---|---|---|---|---|---|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/dt05_real_isolated_1ch_track|1640|160390|95.9|1.7|2.3|0.8|4.8|57.7|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/dt05_real_beamformit_2mics|1640|160390|96.6|1.4|2.0|0.6|4.0|53.3|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/dt05_real_beamformit_5mics|1640|160390|97.1|1.1|1.8|0.5|3.4|49.9|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/dt05_simu_isolated_1ch_track|1640|160400|94.7|2.5|2.9|1.0|6.3|59.7|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/dt05_simu_beamformit_2mics|1640|160400|95.9|1.7|2.3|0.7|4.8|55.5|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/dt05_simu_beamformit_5mics|1640|160400|96.8|1.4|1.9|0.6|3.8|51.6|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/et05_real_isolated_1ch_track|1320|126796|91.5|3.8|4.6|1.6|10.0|69.4|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/et05_real_beamformit_2mics|1320|126796|92.8|3.2|4.0|1.2|8.4|64.7|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/et05_real_beamformit_5mics|1320|126796|94.3|2.4|3.3|1.0|6.6|61.2|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/et05_simu_isolated_1ch_track|1320|126812|90.3|4.8|4.9|2.2|11.9|69.4|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/et05_simu_beamformit_2mics|1320|126812|92.2|3.5|4.2|1.7|9.5|67.5|
+|decode_asr_transformer_normalize_output_wavtrue_lm_lm_train_lm_transformer_en_char_valid.loss.ave_enh_asr_model_valid.acc.ave/et05_simu_beamformit_5mics|1320|126812|93.7|2.7|3.5|1.4|7.7|64.8|
+
+### Enhancement
+
+|dataset|STOI|SDR|SI_SNR|
+|---|---|---|---|
+|dt05_simu_isolated_1ch_track|0.87|7.14|4.51|
+|et05_simu_isolated_1ch_track|0.85|7.47|3.02|
diff --git a/egs2/clarity21/enh_2021/cmd.sh b/egs2/chime4/enh_asr1/cmd.sh
similarity index 100%
rename from egs2/clarity21/enh_2021/cmd.sh
rename to egs2/chime4/enh_asr1/cmd.sh
diff --git a/egs2/chime4/enh_asr1/conf/chime4.cfg b/egs2/chime4/enh_asr1/conf/chime4.cfg
new file mode 120000
index 00000000000..5b3477ab5c6
--- /dev/null
+++ b/egs2/chime4/enh_asr1/conf/chime4.cfg
@@ -0,0 +1 @@
+../../asr1/conf/chime4.cfg
\ No newline at end of file
diff --git a/egs2/chime4/enh_asr1/conf/decode_asr_transformer.yaml b/egs2/chime4/enh_asr1/conf/decode_asr_transformer.yaml
new file mode 100644
index 00000000000..8e7518150a7
--- /dev/null
+++ b/egs2/chime4/enh_asr1/conf/decode_asr_transformer.yaml
@@ -0,0 +1,7 @@
+batch_size: 0
+beam-size: 10
+penalty: 0.0
+maxlenratio: 0.0
+minlenratio: 0.0
+ctc-weight: 0.3
+lm-weight: 1.0
diff --git a/egs2/chime4/enh_asr1/conf/fbank.conf b/egs2/chime4/enh_asr1/conf/fbank.conf
new file mode 100644
index 00000000000..82ac7bd0dbc
--- /dev/null
+++ b/egs2/chime4/enh_asr1/conf/fbank.conf
@@ -0,0 +1,2 @@
+--sample-frequency=16000 
+--num-mel-bins=80
diff --git a/egs2/clarity21/enh_2021/conf/pbs.conf b/egs2/chime4/enh_asr1/conf/pbs.conf
similarity index 100%
rename from egs2/clarity21/enh_2021/conf/pbs.conf
rename to egs2/chime4/enh_asr1/conf/pbs.conf
diff --git a/egs2/chime4/enh_asr1/conf/pitch.conf b/egs2/chime4/enh_asr1/conf/pitch.conf
new file mode 100644
index 00000000000..e959a19d5b8
--- /dev/null
+++ b/egs2/chime4/enh_asr1/conf/pitch.conf
@@ -0,0 +1 @@
+--sample-frequency=16000
diff --git a/egs2/clarity21/enh_2021/conf/queue.conf b/egs2/chime4/enh_asr1/conf/queue.conf
similarity index 100%
rename from egs2/clarity21/enh_2021/conf/queue.conf
rename to egs2/chime4/enh_asr1/conf/queue.conf
diff --git a/egs2/clarity21/enh_2021/conf/slurm.conf b/egs2/chime4/enh_asr1/conf/slurm.conf
similarity index 100%
rename from egs2/clarity21/enh_2021/conf/slurm.conf
rename to egs2/chime4/enh_asr1/conf/slurm.conf
diff --git a/egs2/chime4/enh_asr1/conf/train_enh_asr_convtasnet_fbank_transformer.yaml b/egs2/chime4/enh_asr1/conf/train_enh_asr_convtasnet_fbank_transformer.yaml
new file mode 120000
index 00000000000..920b436ba58
--- /dev/null
+++ b/egs2/chime4/enh_asr1/conf/train_enh_asr_convtasnet_fbank_transformer.yaml
@@ -0,0 +1 @@
+tuning/train_enh_asr_convtasnet_si_snr_fbank_transformer_lr2e-3_accum2_warmup20k_specaug.yaml
\ No newline at end of file
diff --git a/egs2/chime4/enh_asr1/conf/train_lm_transformer.yaml b/egs2/chime4/enh_asr1/conf/train_lm_transformer.yaml
new file mode 100644
index 00000000000..a502a55381a
--- /dev/null
+++ b/egs2/chime4/enh_asr1/conf/train_lm_transformer.yaml
@@ -0,0 +1,48 @@
+# network architecture
+# encoder related
+encoder: transformer
+encoder_conf:
+    input_layer: conv2d
+    num_blocks: 12
+    linear_units: 2048
+    dropout_rate: 0.1
+    output_size: 256
+    attention_heads: 4
+    attention_dropout_rate: 0.0
+
+# decoder related
+decoder: transformer
+decoder_conf:
+    input_layer: embed
+    num_blocks: 6
+    linear_units: 2048
+    dropout_rate: 0.1
+
+# hybrid CTC/attention
+model_conf:
+    ctc_weight: 0.3
+    lsm_weight: 0.1
+    length_normalized_loss: false
+
+# optimization related
+optim: adam
+accum_grad: 2
+grad_clip: 5
+patience: 10
+max_epoch: 100
+optim_conf:
+    lr: 0.005
+scheduler: warmuplr
+scheduler_conf:
+    warmup_steps: 20000
+
+# minibatch related
+batch_type: folded
+batch_size: 32
+
+# criterion
+best_model_criterion:
+-  - valid
+   - acc
+   - max
+keep_nbest_models: 10
\ No newline at end of file
diff --git a/egs2/chime4/enh_asr1/conf/tuning/train_enh_asr_convtasnet_init_noenhloss_wavlm_transformer_init_lr1e-4_accum1_adam_specaug_bypass0.yaml b/egs2/chime4/enh_asr1/conf/tuning/train_enh_asr_convtasnet_init_noenhloss_wavlm_transformer_init_lr1e-4_accum1_adam_specaug_bypass0.yaml
new file mode 100644
index 00000000000..1eb24dd8134
--- /dev/null
+++ b/egs2/chime4/enh_asr1/conf/tuning/train_enh_asr_convtasnet_init_noenhloss_wavlm_transformer_init_lr1e-4_accum1_adam_specaug_bypass0.yaml
@@ -0,0 +1,124 @@
+# minibatch related
+batch_type: folded
+batch_size: 16  # A6000 x 1
+accum_grad: 1
+grad_clip: 5
+max_epoch: 12
+patience: 10
+# The initialization method for model parameters
+init: xavier_uniform
+val_scheduler_criterion:
+- valid
+- loss
+best_model_criterion:
+-   - valid
+    - acc
+    - max
+-   - train
+    - loss
+    - min
+keep_nbest_models: 10
+num_att_plot: 3
+unused_parameters: true
+freeze_param: [
+    "s2t_model.frontend.upstream",
+]
+init_param: [
+    "../enh1/exp/enh_train_enh_convtasnet_small_raw/valid.loss.ave_1best.pth:encoder:enh_model.encoder",
+    "../enh1/exp/enh_train_enh_convtasnet_small_raw/valid.loss.ave_1best.pth:separator:enh_model.separator",
+    "../enh1/exp/enh_train_enh_convtasnet_small_raw/valid.loss.ave_1best.pth:decoder:enh_model.decoder",
+    "../asr1/exp/asr_train_asr_transformer_wavlm_lr1e-3_specaug_accum1_preenc128_warmup20k_raw_en_char/valid.acc.ave.pth:frontend:s2t_model.frontend",
+    "../asr1/exp/asr_train_asr_transformer_wavlm_lr1e-3_specaug_accum1_preenc128_warmup20k_raw_en_char/valid.acc.ave.pth:preencoder:s2t_model.preencoder",
+    "../asr1/exp/asr_train_asr_transformer_wavlm_lr1e-3_specaug_accum1_preenc128_warmup20k_raw_en_char/valid.acc.ave.pth:encoder:s2t_model.encoder",
+    "../asr1/exp/asr_train_asr_transformer_wavlm_lr1e-3_specaug_accum1_preenc128_warmup20k_raw_en_char/valid.acc.ave.pth:ctc:s2t_model.ctc",
+    "../asr1/exp/asr_train_asr_transformer_wavlm_lr1e-3_specaug_accum1_preenc128_warmup20k_raw_en_char/valid.acc.ave.pth:decoder:s2t_model.decoder",
+]
+
+# network architecture
+enh_encoder: conv
+enh_encoder_conf:
+    channel: 256
+    kernel_size: 40
+    stride: 20
+enh_decoder: conv
+enh_decoder_conf:
+    channel: 256
+    kernel_size: 40
+    stride: 20
+enh_separator: tcn
+enh_separator_conf:
+    num_spk: 1
+    layer: 4
+    stack: 2
+    bottleneck_dim: 256
+    hidden_dim: 512
+    kernel: 3
+    causal: False
+    norm_type: "gLN"
+    nonlinear: relu
+
+frontend: s3prl
+frontend_conf:
+    frontend_conf:
+        upstream: wavlm_large  # Note: If the upstream is changed, please change the input_size in the preencoder.
+    download_dir: ./hub
+    multilayer_feature: true
+
+asr_preencoder: linear
+asr_preencoder_conf:
+    input_size: 1024  # Note: If the upstream is changed, please change this value accordingly.
+    output_size: 128
+
+# encoder related
+asr_encoder: transformer
+asr_encoder_conf:
+    output_size: 256
+    attention_heads: 4
+    linear_units: 2048
+    num_blocks: 12
+    dropout_rate: 0.1
+    attention_dropout_rate: 0.0
+    input_layer: conv2d2
+    normalize_before: true
+
+# decoder related
+asr_decoder: transformer
+asr_decoder_conf:
+    input_layer: embed
+    attention_heads: 4
+    linear_units: 2048
+    num_blocks: 6
+    dropout_rate: 0.1
+    positional_dropout_rate: 0.0
+    self_attention_dropout_rate: 0.0
+    src_attention_dropout_rate: 0.0
+
+asr_model_conf:
+    ctc_weight: 0.3
+    lsm_weight: 0.1
+    length_normalized_loss: false
+    extract_feats_in_collect_stats: false
+
+model_conf:
+    calc_enh_loss: false
+    bypass_enh_prob: 0.0
+
+optim: adam
+optim_conf:
+    lr: 0.0001
+
+specaug: specaug
+specaug_conf:
+    apply_time_warp: true
+    time_warp_window: 5
+    time_warp_mode: bicubic
+        apply_freq_mask: true
+    freq_mask_width_range:
+    - 0
+    - 100
+    num_freq_mask: 4
+    apply_time_mask: true
+    time_mask_width_range:
+    - 0
+    - 40
+    num_time_mask: 2
diff --git a/egs2/chime4/enh_asr1/conf/tuning/train_enh_asr_convtasnet_si_snr_fbank_transformer_lr2e-3_accum2_warmup20k_specaug.yaml b/egs2/chime4/enh_asr1/conf/tuning/train_enh_asr_convtasnet_si_snr_fbank_transformer_lr2e-3_accum2_warmup20k_specaug.yaml
new file mode 100644
index 00000000000..8e30e5edecb
--- /dev/null
+++ b/egs2/chime4/enh_asr1/conf/tuning/train_enh_asr_convtasnet_si_snr_fbank_transformer_lr2e-3_accum2_warmup20k_specaug.yaml
@@ -0,0 +1,119 @@
+# minibatch related
+batch_type: folded
+batch_size: 16  # A6000 x 1
+accum_grad: 2
+grad_clip: 5
+max_epoch: 50
+patience: 10
+# The initialization method for model parameters
+init: xavier_uniform
+val_scheduler_criterion:
+- valid
+- loss
+best_model_criterion:
+-   - valid
+    - acc
+    - max
+-   - train
+    - loss
+    - min
+keep_nbest_models: 10
+num_att_plot: 0
+
+# network architecture
+enh_encoder: conv
+enh_encoder_conf:
+    channel: 256
+    kernel_size: 40
+    stride: 20
+enh_decoder: conv
+enh_decoder_conf:
+    channel: 256
+    kernel_size: 40
+    stride: 20
+enh_separator: tcn
+enh_separator_conf:
+    num_spk: 1
+    layer: 4
+    stack: 2
+    bottleneck_dim: 256
+    hidden_dim: 512
+    kernel: 3
+    causal: False
+    norm_type: "gLN"
+    nonlinear: relu
+enh_criterions:
+  # The first criterion
+  - name: si_snr
+    conf:
+        eps: 1e-7
+    # the wrapper for the current criterion
+    # for single-talker case, we simplely use fixed_order wrapper
+    wrapper: fixed_order
+    wrapper_conf:
+        weight: 1.0
+
+frontend: default
+frontend_conf:
+    fs: 16000
+    n_fft: 512
+    win_length: 400
+    hop_length: 160
+    frontend_conf: null
+    apply_stft: True
+
+# encoder related
+asr_encoder: transformer
+asr_encoder_conf:
+    output_size: 256
+    attention_heads: 4
+    linear_units: 2048
+    num_blocks: 12
+    dropout_rate: 0.1
+    attention_dropout_rate: 0.0
+    input_layer: conv2d
+    normalize_before: true
+
+# decoder related
+asr_decoder: transformer
+asr_decoder_conf:
+    input_layer: embed
+    attention_heads: 4
+    linear_units: 2048
+    num_blocks: 6
+    dropout_rate: 0.1
+    positional_dropout_rate: 0.0
+    self_attention_dropout_rate: 0.0
+    src_attention_dropout_rate: 0.0
+
+asr_model_conf:
+    ctc_weight: 0.3
+    lsm_weight: 0.1
+    length_normalized_loss: false
+    extract_feats_in_collect_stats: false
+
+model_conf:
+    bypass_enh_prob: 0.0
+
+optim: adam
+optim_conf:
+    lr: 0.002
+scheduler: warmuplr
+scheduler_conf:
+    warmup_steps: 20000
+
+specaug: specaug
+specaug_conf:
+    apply_time_warp: true
+    time_warp_window: 5
+    time_warp_mode: bicubic
+    apply_freq_mask: true
+    freq_mask_width_range:
+    - 0
+    - 30
+    num_freq_mask: 2
+    apply_time_mask: true
+    time_mask_width_range:
+    - 0
+    - 40
+    num_time_mask: 2
\ No newline at end of file
diff --git a/egs2/chime4/enh_asr1/db.sh b/egs2/chime4/enh_asr1/db.sh
new file mode 120000
index 00000000000..3090b1bc350
--- /dev/null
+++ b/egs2/chime4/enh_asr1/db.sh
@@ -0,0 +1 @@
+../../TEMPLATE/enh_asr1/db.sh
\ No newline at end of file
diff --git a/egs2/chime4/enh_asr1/enh_asr.sh b/egs2/chime4/enh_asr1/enh_asr.sh
new file mode 120000
index 00000000000..b00d9b13ef7
--- /dev/null
+++ b/egs2/chime4/enh_asr1/enh_asr.sh
@@ -0,0 +1 @@
+../../TEMPLATE/enh_asr1/enh_asr.sh
\ No newline at end of file
diff --git a/egs2/chime4/enh_asr1/local/CHiME3_simulate_data_patched_parallel.m b/egs2/chime4/enh_asr1/local/CHiME3_simulate_data_patched_parallel.m
new file mode 120000
index 00000000000..8f939c2e007
--- /dev/null
+++ b/egs2/chime4/enh_asr1/local/CHiME3_simulate_data_patched_parallel.m
@@ -0,0 +1 @@
+../../enh1/local/CHiME3_simulate_data_patched_parallel.m
\ No newline at end of file
diff --git a/egs2/chime4/enh_asr1/local/bth_chime4_data_prep.sh b/egs2/chime4/enh_asr1/local/bth_chime4_data_prep.sh
new file mode 120000
index 00000000000..f94db52c974
--- /dev/null
+++ b/egs2/chime4/enh_asr1/local/bth_chime4_data_prep.sh
@@ -0,0 +1 @@
+../../asr1/local/bth_chime4_data_prep.sh
\ No newline at end of file
diff --git a/egs2/chime4/enh_asr1/local/chime4_asr_data.sh b/egs2/chime4/enh_asr1/local/chime4_asr_data.sh
new file mode 120000
index 00000000000..58fbb0a9212
--- /dev/null
+++ b/egs2/chime4/enh_asr1/local/chime4_asr_data.sh
@@ -0,0 +1 @@
+../../asr1/local/data.sh
\ No newline at end of file
diff --git a/egs2/chime4/enh_asr1/local/chime4_enh_data.sh b/egs2/chime4/enh_asr1/local/chime4_enh_data.sh
new file mode 120000
index 00000000000..d30a4dc12a7
--- /dev/null
+++ b/egs2/chime4/enh_asr1/local/chime4_enh_data.sh
@@ -0,0 +1 @@
+../../enh1/local/data.sh
\ No newline at end of file
diff --git a/egs2/chime4/enh_asr1/local/clean_chime4_format_data.sh b/egs2/chime4/enh_asr1/local/clean_chime4_format_data.sh
new file mode 120000
index 00000000000..4826e8e382a
--- /dev/null
+++ b/egs2/chime4/enh_asr1/local/clean_chime4_format_data.sh
@@ -0,0 +1 @@
+../../enh1/local/clean_chime4_format_data.sh
\ No newline at end of file
diff --git a/egs2/chime4/enh_asr1/local/clean_wsj0_data_prep.sh b/egs2/chime4/enh_asr1/local/clean_wsj0_data_prep.sh
new file mode 120000
index 00000000000..5c61d4de024
--- /dev/null
+++ b/egs2/chime4/enh_asr1/local/clean_wsj0_data_prep.sh
@@ -0,0 +1 @@
+../../enh1/local/clean_wsj0_data_prep.sh
\ No newline at end of file
diff --git a/egs2/chime4/enh_asr1/local/cstr_ndx2flist.pl b/egs2/chime4/enh_asr1/local/cstr_ndx2flist.pl
new file mode 120000
index 00000000000..50660a2b68e
--- /dev/null
+++ b/egs2/chime4/enh_asr1/local/cstr_ndx2flist.pl
@@ -0,0 +1 @@
+../../enh1/local/cstr_ndx2flist.pl
\ No newline at end of file
diff --git a/egs2/chime4/enh_asr1/local/data.sh b/egs2/chime4/enh_asr1/local/data.sh
new file mode 100755
index 00000000000..dc36d70eae3
--- /dev/null
+++ b/egs2/chime4/enh_asr1/local/data.sh
@@ -0,0 +1,89 @@
+#!/usr/bin/env bash
+
+set -e
+set -u
+set -o pipefail
+
+log() {
+    local fname=${BASH_SOURCE[1]##*/}
+    echo -e "$(date '+%Y-%m-%dT%H:%M:%S') (${fname}:${BASH_LINENO[0]}:${FUNCNAME[1]}) $*"
+}
+SECONDS=0
+
+help_message=$(cat << EOF
+Usage: $0 --extra-annotations <path> [--stage <stage>] [--stop_stage <stop_stage>] [--nj <nj>]
+
+  required argument:
+    --extra-annotations: path to a directory containing extra annotations for CHiME4
+                         This is required for preparing et05_simu_isolated_1ch_track.
+    NOTE:
+        You can download it manually from
+            http://spandh.dcs.shef.ac.uk/chime_challenge/CHiME4/download.html
+        Then unzip the downloaded file to CHiME4_diff;
+        You will then find the extra annotations in CHiME4_diff/CHiME3/data/annotations
+
+  optional argument:
+    [--stage]: 1 (default) or 2
+    [--stop_stage]: 1 or 2 (default)
+    [--nj]: number of parallel pool workers in MATLAB
+EOF
+)
+
+
+stage=0
+stop_stage=100
+extra_annotations=
+local_data_opts=
+train_dev=dt05_multi_isolated_1ch_track
+log "$0 $*"
+. utils/parse_options.sh
+
+
+if [ $# -ne 0 ] || [ -z "${extra_annotations}" ]; then
+    echo "${help_message}"
+    exit 2
+fi
+
+. ./path.sh || exit 1;
+. ./cmd.sh || exit 1;
+. ./db.sh || exit 1;
+
+
+if [ ${stage} -le 0 ] && [ ${stop_stage} -ge 0 ]; then
+    log "stage 0: Enh data preparation"
+    local/chime4_enh_data.sh --extra_annotations ${extra_annotations} ${local_data_opts}
+fi
+
+if [ ${stage} -le 1 ] && [ ${stop_stage} -ge 1 ]; then
+    log "stage 1: ASR data preparation"
+    local/chime4_asr_data.sh --stage 0 --stop-stage 1 ${local_data_opts}
+fi
+
+if [ ${stage} -le 2 ] && [ ${stop_stage} -ge 2 ]; then
+    log "stage 2: Enh_ASR data preparation: combine enh and asr data"
+
+    # dummy spk1.scp
+    for dset in tr05_real_noisy train_si284 dt05_real_isolated_1ch_track et05_real_isolated_1ch_track dt05_real_beamformit_2mics dt05_simu_beamformit_2mics et05_real_beamformit_2mics et05_simu_beamformit_2mics dt05_real_beamformit_5mics dt05_simu_beamformit_5mics et05_real_beamformit_5mics et05_simu_beamformit_5mics; do
+        cp data/${dset}/wav.scp data/${dset}/spk1.scp
+    done
+    cp data/tr05_simu_isolated_1ch_track/spk1.scp data/tr05_simu_noisy
+
+    # utt2category
+    <data/tr05_simu_noisy/wav.scp awk '{print($1, "SIMU")}' > data/tr05_simu_noisy/utt2category
+    <data/tr05_real_noisy/wav.scp awk '{print($1, "REAL")}' > data/tr05_real_noisy/utt2category
+    <data/train_si284/wav.scp awk '{print($1, "CLEAN")}' > data/train_si284/utt2category
+    <data/dt05_simu_isolated_1ch_track/wav.scp awk '{print($1, "SIMU")}' > data/dt05_simu_isolated_1ch_track/utt2category
+    <data/dt05_real_isolated_1ch_track/wav.scp awk '{print($1, "REAL")}' > data/dt05_real_isolated_1ch_track/utt2category
+
+    utils/combine_data.sh --extra_files "utt2category spk1.scp" \
+        data/tr05_multi_noisy data/tr05_simu_noisy data/tr05_real_noisy 
+    utils/combine_data.sh --extra_files "utt2category spk1.scp" \
+        data/tr05_multi_noisy_si284 data/tr05_multi_noisy data/train_si284
+    utils/combine_data.sh --extra_files "utt2category spk1.scp" data/${train_dev} \
+        data/dt05_simu_isolated_1ch_track data/dt05_real_isolated_1ch_track
+fi
+
+if [ ${stage} -le 3 ] && [ ${stop_stage} -ge 3 ]; then
+    log "stage 3: Srctexts preparation"
+    local/chime4_asr_data.sh --stage 2 --stop-stage 2
+fi
\ No newline at end of file
diff --git a/egs2/chime4/enh_asr1/local/find_noisy_transcripts.pl b/egs2/chime4/enh_asr1/local/find_noisy_transcripts.pl
new file mode 120000
index 00000000000..ae475b3b32d
--- /dev/null
+++ b/egs2/chime4/enh_asr1/local/find_noisy_transcripts.pl
@@ -0,0 +1 @@
+../../enh1/local/find_noisy_transcripts.pl
\ No newline at end of file
diff --git a/egs2/chime4/enh_asr1/local/find_transcripts.pl b/egs2/chime4/enh_asr1/local/find_transcripts.pl
new file mode 120000
index 00000000000..5e58a9d0c0e
--- /dev/null
+++ b/egs2/chime4/enh_asr1/local/find_transcripts.pl
@@ -0,0 +1 @@
+../../enh1/local/find_transcripts.pl
\ No newline at end of file
diff --git a/egs2/chime4/enh_asr1/local/flist2scp.pl b/egs2/chime4/enh_asr1/local/flist2scp.pl
new file mode 120000
index 00000000000..c44f94660eb
--- /dev/null
+++ b/egs2/chime4/enh_asr1/local/flist2scp.pl
@@ -0,0 +1 @@
+../../enh1/local/flist2scp.pl
\ No newline at end of file
diff --git a/egs2/chime4/enh_asr1/local/localize.m b/egs2/chime4/enh_asr1/local/localize.m
new file mode 120000
index 00000000000..f93a989f0ad
--- /dev/null
+++ b/egs2/chime4/enh_asr1/local/localize.m
@@ -0,0 +1 @@
+../../enh1/local/localize.m
\ No newline at end of file
diff --git a/egs2/chime4/enh_asr1/local/make_stft.sh b/egs2/chime4/enh_asr1/local/make_stft.sh
new file mode 120000
index 00000000000..cf9038f4ea2
--- /dev/null
+++ b/egs2/chime4/enh_asr1/local/make_stft.sh
@@ -0,0 +1 @@
+../../asr1/local/make_stft.sh
\ No newline at end of file
diff --git a/egs2/chime4/enh_asr1/local/ndx2flist.pl b/egs2/chime4/enh_asr1/local/ndx2flist.pl
new file mode 120000
index 00000000000..5f79e7991f9
--- /dev/null
+++ b/egs2/chime4/enh_asr1/local/ndx2flist.pl
@@ -0,0 +1 @@
+../../asr1/local/ndx2flist.pl
\ No newline at end of file
diff --git a/egs2/chime4/enh_asr1/local/normalize_transcript.pl b/egs2/chime4/enh_asr1/local/normalize_transcript.pl
new file mode 120000
index 00000000000..1be067e3703
--- /dev/null
+++ b/egs2/chime4/enh_asr1/local/normalize_transcript.pl
@@ -0,0 +1 @@
+../../enh1/local/normalize_transcript.pl
\ No newline at end of file
diff --git a/egs2/clarity21/enh_2021/local/path.sh b/egs2/chime4/enh_asr1/local/path.sh
similarity index 100%
rename from egs2/clarity21/enh_2021/local/path.sh
rename to egs2/chime4/enh_asr1/local/path.sh
diff --git a/egs2/chime4/enh_asr1/local/real_enhan_chime4_data_prep.sh b/egs2/chime4/enh_asr1/local/real_enhan_chime4_data_prep.sh
new file mode 120000
index 00000000000..13c906eba90
--- /dev/null
+++ b/egs2/chime4/enh_asr1/local/real_enhan_chime4_data_prep.sh
@@ -0,0 +1 @@
+../../asr1/local/real_enhan_chime4_data_prep.sh
\ No newline at end of file
diff --git a/egs2/chime4/enh_asr1/local/real_ext_chime4_data_prep.sh b/egs2/chime4/enh_asr1/local/real_ext_chime4_data_prep.sh
new file mode 120000
index 00000000000..6620a1d2eb4
--- /dev/null
+++ b/egs2/chime4/enh_asr1/local/real_ext_chime4_data_prep.sh
@@ -0,0 +1 @@
+../../enh1/local/real_ext_chime4_data_prep.sh
\ No newline at end of file
diff --git a/egs2/chime4/enh_asr1/local/real_noisy_chime4_data_prep.sh b/egs2/chime4/enh_asr1/local/real_noisy_chime4_data_prep.sh
new file mode 120000
index 00000000000..86d5a8cca3b
--- /dev/null
+++ b/egs2/chime4/enh_asr1/local/real_noisy_chime4_data_prep.sh
@@ -0,0 +1 @@
+../../enh1/local/real_noisy_chime4_data_prep.sh
\ No newline at end of file
diff --git a/egs2/chime4/enh_asr1/local/run_beamform_2ch_track.sh b/egs2/chime4/enh_asr1/local/run_beamform_2ch_track.sh
new file mode 120000
index 00000000000..eb7894626ea
--- /dev/null
+++ b/egs2/chime4/enh_asr1/local/run_beamform_2ch_track.sh
@@ -0,0 +1 @@
+../../asr1/local/run_beamform_2ch_track.sh
\ No newline at end of file
diff --git a/egs2/chime4/enh_asr1/local/run_beamform_6ch_track.sh b/egs2/chime4/enh_asr1/local/run_beamform_6ch_track.sh
new file mode 120000
index 00000000000..d8609c18f57
--- /dev/null
+++ b/egs2/chime4/enh_asr1/local/run_beamform_6ch_track.sh
@@ -0,0 +1 @@
+../../asr1/local/run_beamform_6ch_track.sh
\ No newline at end of file
diff --git a/egs2/chime4/enh_asr1/local/show_enhance_results.sh b/egs2/chime4/enh_asr1/local/show_enhance_results.sh
new file mode 120000
index 00000000000..7be0ac655cd
--- /dev/null
+++ b/egs2/chime4/enh_asr1/local/show_enhance_results.sh
@@ -0,0 +1 @@
+../../asr1/local/show_enhance_results.sh
\ No newline at end of file
diff --git a/egs2/chime4/enh_asr1/local/simu_enhan_chime4_data_prep.sh b/egs2/chime4/enh_asr1/local/simu_enhan_chime4_data_prep.sh
new file mode 120000
index 00000000000..f1227dc8071
--- /dev/null
+++ b/egs2/chime4/enh_asr1/local/simu_enhan_chime4_data_prep.sh
@@ -0,0 +1 @@
+../../asr1/local/simu_enhan_chime4_data_prep.sh
\ No newline at end of file
diff --git a/egs2/chime4/enh_asr1/local/simu_ext_chime4_data_prep.sh b/egs2/chime4/enh_asr1/local/simu_ext_chime4_data_prep.sh
new file mode 120000
index 00000000000..58b7195ba04
--- /dev/null
+++ b/egs2/chime4/enh_asr1/local/simu_ext_chime4_data_prep.sh
@@ -0,0 +1 @@
+../../enh1/local/simu_ext_chime4_data_prep.sh
\ No newline at end of file
diff --git a/egs2/chime4/enh_asr1/local/simu_noisy_chime4_data_prep.sh b/egs2/chime4/enh_asr1/local/simu_noisy_chime4_data_prep.sh
new file mode 120000
index 00000000000..da4d7f621c7
--- /dev/null
+++ b/egs2/chime4/enh_asr1/local/simu_noisy_chime4_data_prep.sh
@@ -0,0 +1 @@
+../../enh1/local/simu_noisy_chime4_data_prep.sh
\ No newline at end of file
diff --git a/egs2/chime4/enh_asr1/local/sym_channel.py b/egs2/chime4/enh_asr1/local/sym_channel.py
new file mode 120000
index 00000000000..9901c190202
--- /dev/null
+++ b/egs2/chime4/enh_asr1/local/sym_channel.py
@@ -0,0 +1 @@
+../../asr1/local/sym_channel.py
\ No newline at end of file
diff --git a/egs2/chime4/enh_asr1/local/wsj_data_prep.sh b/egs2/chime4/enh_asr1/local/wsj_data_prep.sh
new file mode 120000
index 00000000000..2ba8ba465af
--- /dev/null
+++ b/egs2/chime4/enh_asr1/local/wsj_data_prep.sh
@@ -0,0 +1 @@
+../../asr1/local/wsj_data_prep.sh
\ No newline at end of file
diff --git a/egs2/chime4/enh_asr1/local/wsj_format_data.sh b/egs2/chime4/enh_asr1/local/wsj_format_data.sh
new file mode 120000
index 00000000000..036fb8b8689
--- /dev/null
+++ b/egs2/chime4/enh_asr1/local/wsj_format_data.sh
@@ -0,0 +1 @@
+../../asr1/local/wsj_format_data.sh
\ No newline at end of file
diff --git a/egs2/chime4/enh_asr1/path.sh b/egs2/chime4/enh_asr1/path.sh
new file mode 120000
index 00000000000..f2720c6899b
--- /dev/null
+++ b/egs2/chime4/enh_asr1/path.sh
@@ -0,0 +1 @@
+../../TEMPLATE/enh_asr1/path.sh
\ No newline at end of file
diff --git a/egs2/chime4/enh_asr1/pyscripts b/egs2/chime4/enh_asr1/pyscripts
new file mode 120000
index 00000000000..008f9bd4bc5
--- /dev/null
+++ b/egs2/chime4/enh_asr1/pyscripts
@@ -0,0 +1 @@
+../../TEMPLATE/enh_asr1/pyscripts
\ No newline at end of file
diff --git a/egs2/chime4/enh_asr1/run.sh b/egs2/chime4/enh_asr1/run.sh
new file mode 100755
index 00000000000..c42213e9441
--- /dev/null
+++ b/egs2/chime4/enh_asr1/run.sh
@@ -0,0 +1,45 @@
+#!/usr/bin/env bash
+# Set bash to 'debug' mode, it will exit on :
+# -e 'error', -u 'undefined variable', -o ... 'error in pipeline', -x 'print commands',
+set -e
+set -u
+set -o pipefail
+
+
+extra_annotations=
+
+train_set=tr05_multi_noisy_si284 # tr05_multi_noisy (original training data) or tr05_multi_noisy_si284 (add si284 data)
+valid_set=dt05_multi_isolated_1ch_track
+test_sets="\
+dt05_real_isolated_1ch_track dt05_simu_isolated_1ch_track et05_real_isolated_1ch_track et05_simu_isolated_1ch_track \
+dt05_real_beamformit_2mics dt05_simu_beamformit_2mics et05_real_beamformit_2mics et05_simu_beamformit_2mics \
+dt05_real_beamformit_5mics dt05_simu_beamformit_5mics et05_real_beamformit_5mics et05_simu_beamformit_5mics \
+"
+
+enh_asr_config=conf/train_enh_asr_convtasnet_fbank_transformer.yaml
+inference_config=conf/decode_asr_transformer.yaml
+lm_config=conf/train_lm_transformer.yaml
+
+
+use_word_lm=false
+word_vocab_size=65000
+
+./enh_asr.sh \
+    --lang en \
+    --spk_num 1 \
+    --ref_channel 3 \
+    --local_data_opts "--extra-annotations ${extra_annotations}" \
+    --nlsyms_txt data/nlsyms.txt \
+    --token_type char \
+    --feats_type raw \
+    --feats_normalize utt_mvn \
+    --enh_asr_config "${enh_asr_config}" \
+    --inference_config "${inference_config}" \
+    --lm_config "${lm_config}" \
+    --use_word_lm ${use_word_lm} \
+    --word_vocab_size ${word_vocab_size} \
+    --train_set "${train_set}" \
+    --valid_set "${valid_set}" \
+    --test_sets "${test_sets}" \
+    --bpe_train_text "data/${train_set}/text" \
+    --lm_train_text "data/${train_set}/text data/local/other_text/text" "$@"
diff --git a/egs2/chime4/enh_asr1/scripts b/egs2/chime4/enh_asr1/scripts
new file mode 120000
index 00000000000..6c0f28ef23c
--- /dev/null
+++ b/egs2/chime4/enh_asr1/scripts
@@ -0,0 +1 @@
+../../TEMPLATE/enh_asr1/scripts
\ No newline at end of file
diff --git a/egs2/chime4/enh_asr1/steps b/egs2/chime4/enh_asr1/steps
new file mode 120000
index 00000000000..91f2d234e20
--- /dev/null
+++ b/egs2/chime4/enh_asr1/steps
@@ -0,0 +1 @@
+../../../tools/kaldi/egs/wsj/s5/steps
\ No newline at end of file
diff --git a/egs2/chime4/enh_asr1/utils b/egs2/chime4/enh_asr1/utils
new file mode 120000
index 00000000000..f49247da827
--- /dev/null
+++ b/egs2/chime4/enh_asr1/utils
@@ -0,0 +1 @@
+../../../tools/kaldi/egs/wsj/s5/utils
\ No newline at end of file
diff --git a/egs2/chime6/asr1/README.md b/egs2/chime6/asr1/README.md
new file mode 100644
index 00000000000..45a7200ec9f
--- /dev/null
+++ b/egs2/chime6/asr1/README.md
@@ -0,0 +1,30 @@
+<!-- Generated by scripts/utils/show_asr_result.sh -->
+# RESULTS
+## Environments
+- date: `Tue May  3 16:47:10 EDT 2022`
+- python version: `3.9.12 (main, Apr  5 2022, 06:56:58)  [GCC 7.5.0]`
+- espnet version: `espnet 202204`
+- pytorch version: `pytorch 1.10.1`
+- Git hash: `b757b89d45d5574cebf44e225cbe32e3e9e4f522`
+  - Commit date: `Mon May 2 09:21:08 2022 -0400`
+
+## asr_train_asr_transformer_wavlm_lr1e-3_specaug_accum1_preenc128_warmup20k_raw_en_bpe1000_sp
+- Pretrained model: https://huggingface.co/espnet/simpleoier_chime6_asr_transformer_wavlm_lr1e-3
+### WER
+
+|dataset|Snt|Wrd|Corr|Sub|Del|Ins|Err|S.Err|
+|---|---|---|---|---|---|---|---|---|
+|decode_asr_transformer_asr_model_valid.acc.ave_5best/dev_gss_multiarray|7437|58881|69.4|20.2|10.4|8.6|39.1|75.8|
+
+### CER
+
+|dataset|Snt|Wrd|Corr|Sub|Del|Ins|Err|S.Err|
+|---|---|---|---|---|---|---|---|---|
+|decode_asr_transformer_asr_model_valid.acc.ave_5best/dev_gss_multiarray|7437|280767|80.6|7.4|12.0|8.9|28.3|76.6|
+
+### TER
+
+|dataset|Snt|Wrd|Corr|Sub|Del|Ins|Err|S.Err|
+|---|---|---|---|---|---|---|---|---|
+|decode_asr_transformer_asr_model_valid.acc.ave_5best/dev_gss_multiarray|7437|92680|68.9|17.7|13.4|8.2|39.3|76.6|
+
diff --git a/egs2/chime6/asr1/asr.sh b/egs2/chime6/asr1/asr.sh
new file mode 120000
index 00000000000..60b05122cfd
--- /dev/null
+++ b/egs2/chime6/asr1/asr.sh
@@ -0,0 +1 @@
+../../TEMPLATE/asr1/asr.sh
\ No newline at end of file
diff --git a/egs2/chime6/asr1/cmd.sh b/egs2/chime6/asr1/cmd.sh
new file mode 100644
index 00000000000..2aae6919fef
--- /dev/null
+++ b/egs2/chime6/asr1/cmd.sh
@@ -0,0 +1,110 @@
+# ====== About run.pl, queue.pl, slurm.pl, and ssh.pl ======
+# Usage: <cmd>.pl [options] JOB=1:<nj> <log> <command...>
+# e.g.
+#   run.pl --mem 4G JOB=1:10 echo.JOB.log echo JOB
+#
+# Options:
+#   --time <time>: Limit the maximum time to execute.
+#   --mem <mem>: Limit the maximum memory usage.
+#   -–max-jobs-run <njob>: Limit the number parallel jobs. This is ignored for non-array jobs.
+#   --num-threads <ngpu>: Specify the number of CPU core.
+#   --gpu <ngpu>: Specify the number of GPU devices.
+#   --config: Change the configuration file from default.
+#
+# "JOB=1:10" is used for "array jobs" and it can control the number of parallel jobs.
+# The left string of "=", i.e. "JOB", is replaced by <N>(Nth job) in the command and the log file name,
+# e.g. "echo JOB" is changed to "echo 3" for the 3rd job and "echo 8" for 8th job respectively.
+# Note that the number must start with a positive number, so you can't use "JOB=0:10" for example.
+#
+# run.pl, queue.pl, slurm.pl, and ssh.pl have unified interface, not depending on its backend.
+# These options are mapping to specific options for each backend and
+# it is configured by "conf/queue.conf" and "conf/slurm.conf" by default.
+# If jobs failed, your configuration might be wrong for your environment.
+#
+#
+# The official documentation for run.pl, queue.pl, slurm.pl, and ssh.pl:
+#   "Parallelization in Kaldi": http://kaldi-asr.org/doc/queue.html
+# =========================================================~
+
+
+# Select the backend used by run.sh from "local", "stdout", "sge", "slurm", or "ssh"
+cmd_backend='local'
+
+# Local machine, without any Job scheduling system
+if [ "${cmd_backend}" = local ]; then
+
+    # The other usage
+    export train_cmd="run.pl"
+    # Used for "*_train.py": "--gpu" is appended optionally by run.sh
+    export cuda_cmd="run.pl"
+    # Used for "*_recog.py"
+    export decode_cmd="run.pl"
+
+# Local machine logging to stdout and log file, without any Job scheduling system
+elif [ "${cmd_backend}" = stdout ]; then
+
+    # The other usage
+    export train_cmd="stdout.pl"
+    # Used for "*_train.py": "--gpu" is appended optionally by run.sh
+    export cuda_cmd="stdout.pl"
+    # Used for "*_recog.py"
+    export decode_cmd="stdout.pl"
+
+
+# "qsub" (Sun Grid Engine, or derivation of it)
+elif [ "${cmd_backend}" = sge ]; then
+    # The default setting is written in conf/queue.conf.
+    # You must change "-q g.q" for the "queue" for your environment.
+    # To know the "queue" names, type "qhost -q"
+    # Note that to use "--gpu *", you have to setup "complex_value" for the system scheduler.
+
+    export train_cmd="queue.pl"
+    export cuda_cmd="queue.pl"
+    export decode_cmd="queue.pl"
+
+
+# "qsub" (Torque/PBS.)
+elif [ "${cmd_backend}" = pbs ]; then
+    # The default setting is written in conf/pbs.conf.
+
+    export train_cmd="pbs.pl"
+    export cuda_cmd="pbs.pl"
+    export decode_cmd="pbs.pl"
+
+
+# "sbatch" (Slurm)
+elif [ "${cmd_backend}" = slurm ]; then
+    # The default setting is written in conf/slurm.conf.
+    # You must change "-p cpu" and "-p gpu" for the "partition" for your environment.
+    # To know the "partion" names, type "sinfo".
+    # You can use "--gpu * " by default for slurm and it is interpreted as "--gres gpu:*"
+    # The devices are allocated exclusively using "${CUDA_VISIBLE_DEVICES}".
+
+    export train_cmd="slurm.pl"
+    export cuda_cmd="slurm.pl"
+    export decode_cmd="slurm.pl"
+
+elif [ "${cmd_backend}" = ssh ]; then
+    # You have to create ".queue/machines" to specify the host to execute jobs.
+    # e.g. .queue/machines
+    #   host1
+    #   host2
+    #   host3
+    # Assuming you can login them without any password, i.e. You have to set ssh keys.
+
+    export train_cmd="ssh.pl"
+    export cuda_cmd="ssh.pl"
+    export decode_cmd="ssh.pl"
+
+# This is an example of specifying several unique options in the JHU CLSP cluster setup.
+# Users can modify/add their own command options according to their cluster environments.
+elif [ "${cmd_backend}" = jhu ]; then
+
+    export train_cmd="queue.pl --mem 2G"
+    export cuda_cmd="queue-freegpu.pl --mem 2G --gpu 1 --config conf/queue.conf"
+    export decode_cmd="queue.pl --mem 4G"
+
+else
+    echo "$0: Error: Unknown cmd_backend=${cmd_backend}" 1>&2
+    return 1
+fi
diff --git a/egs2/chime6/asr1/conf/decode_asr_transformer.yaml b/egs2/chime6/asr1/conf/decode_asr_transformer.yaml
new file mode 100644
index 00000000000..55faa9d7f3f
--- /dev/null
+++ b/egs2/chime6/asr1/conf/decode_asr_transformer.yaml
@@ -0,0 +1,7 @@
+batch_size: 0
+beam_size: 10
+penalty: 0.0
+maxlenratio: 0.0
+minlenratio: 0.0
+ctc_weight: 0.3
+lm-weight: 0.0
diff --git a/egs2/chime6/asr1/conf/fbank.conf b/egs2/chime6/asr1/conf/fbank.conf
new file mode 100644
index 00000000000..82ac7bd0dbc
--- /dev/null
+++ b/egs2/chime6/asr1/conf/fbank.conf
@@ -0,0 +1,2 @@
+--sample-frequency=16000 
+--num-mel-bins=80
diff --git a/egs2/chime6/asr1/conf/pbs.conf b/egs2/chime6/asr1/conf/pbs.conf
new file mode 100644
index 00000000000..119509938ce
--- /dev/null
+++ b/egs2/chime6/asr1/conf/pbs.conf
@@ -0,0 +1,11 @@
+# Default configuration
+command qsub -V -v PATH -S /bin/bash
+option name=* -N $0
+option mem=* -l mem=$0
+option mem=0          # Do not add anything to qsub_opts
+option num_threads=* -l ncpus=$0
+option num_threads=1  # Do not add anything to qsub_opts
+option num_nodes=* -l nodes=$0:ppn=1
+default gpu=0
+option gpu=0
+option gpu=* -l ngpus=$0
diff --git a/egs2/chime6/asr1/conf/pitch.conf b/egs2/chime6/asr1/conf/pitch.conf
new file mode 100644
index 00000000000..e959a19d5b8
--- /dev/null
+++ b/egs2/chime6/asr1/conf/pitch.conf
@@ -0,0 +1 @@
+--sample-frequency=16000
diff --git a/egs2/chime6/asr1/conf/queue.conf b/egs2/chime6/asr1/conf/queue.conf
new file mode 100644
index 00000000000..500582fab31
--- /dev/null
+++ b/egs2/chime6/asr1/conf/queue.conf
@@ -0,0 +1,12 @@
+# Default configuration
+command qsub -v PATH -cwd -S /bin/bash -j y -l arch=*64*
+option name=* -N $0
+option mem=* -l mem_free=$0,ram_free=$0
+option mem=0          # Do not add anything to qsub_opts
+option num_threads=* -pe smp $0
+option num_threads=1  # Do not add anything to qsub_opts
+option max_jobs_run=* -tc $0
+option num_nodes=* -pe mpi $0  # You must set this PE as allocation_rule=1
+default gpu=0
+option gpu=0
+option gpu=* -l gpu=$0 -q g.q
diff --git a/egs2/chime6/asr1/conf/slurm.conf b/egs2/chime6/asr1/conf/slurm.conf
new file mode 100644
index 00000000000..3b229673638
--- /dev/null
+++ b/egs2/chime6/asr1/conf/slurm.conf
@@ -0,0 +1,14 @@
+# Default configuration
+command sbatch --export=PATH
+option name=* --job-name $0
+option time=* --time $0
+option mem=* --mem-per-cpu $0
+option mem=0
+option num_threads=* --cpus-per-task $0
+option num_threads=1 --cpus-per-task 1
+option num_nodes=* --nodes $0
+default gpu=0
+option gpu=0 -p cpu
+option gpu=* -p gpu --gres=gpu:$0 -c $0  # Recommend allocating more CPU than, or equal to the number of GPU
+# note: the --max-jobs-run option is supported as a special case
+# by slurm.pl and you don't have to handle it in the config file.
diff --git a/egs2/chime6/asr1/conf/train_lm.yaml b/egs2/chime6/asr1/conf/train_lm.yaml
new file mode 100644
index 00000000000..ef244660f43
--- /dev/null
+++ b/egs2/chime6/asr1/conf/train_lm.yaml
@@ -0,0 +1,16 @@
+optim: sgd
+patience: 3
+max_epoch: 20
+batch_type: folded
+batch_size: 1024 # 300 for word LMs
+lm: seq_rnn
+lm_conf:
+    rnn_type: lstm
+    nlayers: 2  # 1 for word LMs
+    unit: 650   # 1000 for word LMs
+
+best_model_criterion:
+-   - valid
+    - loss
+    - min
+keep_nbest_models: 1
diff --git a/egs2/chime6/asr1/conf/tuning/train_asr_transformer_wavlm_lr1e-3_specaug_accum1_preenc128_warmup20k.yaml b/egs2/chime6/asr1/conf/tuning/train_asr_transformer_wavlm_lr1e-3_specaug_accum1_preenc128_warmup20k.yaml
new file mode 100644
index 00000000000..fca817c749d
--- /dev/null
+++ b/egs2/chime6/asr1/conf/tuning/train_asr_transformer_wavlm_lr1e-3_specaug_accum1_preenc128_warmup20k.yaml
@@ -0,0 +1,87 @@
+# minibatch related
+batch_type: folded
+batch_size: 48
+accum_grad: 1
+grad_clip: 5
+max_epoch: 8
+patience: 4
+# The initialization method for model parameters
+init: xavier_uniform
+val_scheduler_criterion:
+- valid
+- loss
+best_model_criterion:
+-   - valid
+    - acc
+    - max
+keep_nbest_models: 10
+unused_parameters: true
+freeze_param: [
+    "frontend.upstream"
+]
+
+# network architecture
+frontend: s3prl
+frontend_conf:
+    frontend_conf:
+        upstream: wavlm_large  # Note: If the upstream is changed, please change the input_size in the preencoder.
+    download_dir: ./hub
+    multilayer_feature: True
+
+preencoder: linear
+preencoder_conf:
+    input_size: 1024  # Note: If the upstream is changed, please change this value accordingly.
+    output_size: 128
+
+# encoder related
+encoder: transformer
+encoder_conf:
+    output_size: 256
+    attention_heads: 4
+    linear_units: 2048
+    num_blocks: 12
+    dropout_rate: 0.1
+    attention_dropout_rate: 0.0
+    input_layer: conv2d2
+    normalize_before: true
+
+# decoder related
+decoder: transformer
+decoder_conf:
+    input_layer: embed
+    attention_heads: 4
+    linear_units: 2048
+    num_blocks: 6
+    dropout_rate: 0.1
+    positional_dropout_rate: 0.0
+    self_attention_dropout_rate: 0.0
+    src_attention_dropout_rate: 0.0
+
+model_conf:
+    ctc_weight: 0.3
+    lsm_weight: 0.1
+    length_normalized_loss: false
+    extract_feats_in_collect_stats: false
+
+optim: adam
+optim_conf:
+    lr: 0.001
+scheduler: warmuplr
+scheduler_conf:
+    warmup_steps: 20000
+
+specaug: specaug
+specaug_conf:
+    apply_time_warp: true
+    time_warp_window: 5
+    time_warp_mode: bicubic
+    apply_freq_mask: true
+    freq_mask_width_range:
+    - 0
+    - 100
+    num_freq_mask: 4
+    apply_time_mask: true
+    time_mask_width_range:
+    - 0
+    - 40
+    num_time_mask: 2
diff --git a/egs2/clarity21/enh_2021/db.sh b/egs2/chime6/asr1/db.sh
similarity index 100%
rename from egs2/clarity21/enh_2021/db.sh
rename to egs2/chime6/asr1/db.sh
diff --git a/egs2/chime6/asr1/local/check_tools.sh b/egs2/chime6/asr1/local/check_tools.sh
new file mode 120000
index 00000000000..9bbf701a738
--- /dev/null
+++ b/egs2/chime6/asr1/local/check_tools.sh
@@ -0,0 +1 @@
+../../../../egs/chime6/asr1/local/check_tools.sh
\ No newline at end of file
diff --git a/egs2/chime6/asr1/local/data.sh b/egs2/chime6/asr1/local/data.sh
new file mode 100755
index 00000000000..a78620ff834
--- /dev/null
+++ b/egs2/chime6/asr1/local/data.sh
@@ -0,0 +1,53 @@
+#!/usr/bin/env bash
+
+set -e
+set -u
+set -o pipefail
+
+log() {
+    local fname=${BASH_SOURCE[1]##*/}
+    echo -e "$(date '+%Y-%m-%dT%H:%M:%S') (${fname}:${BASH_LINENO[0]}:${FUNCNAME[1]}) $*"
+}
+SECONDS=0
+
+
+stage=0
+stop_stage=2
+train_set=train_worn_simu_u400k_cleaned
+log "$0 $*"
+. utils/parse_options.sh
+
+
+if [ $# -ne 0 ]; then
+    log "Error: No positional arguments are required."
+    exit 2
+fi
+
+. ./path.sh || exit 1;
+. ./cmd.sh || exit 1;
+. ./db.sh || exit 1;
+
+
+if [ ! -e "${CHIME5}" ]; then
+    log "Fill the value of 'CHIME5' of db.sh"
+    exit 1
+fi
+
+
+if [ ${stage} -le 1 ] && [ ${stop_stage} -ge 1 ]; then
+    log "stage 1: Data preparation"
+
+    log "GSS for CHiME6 corpus"
+    local/prepare_baseline_chime6_data.sh --chime5_corpus ${CHIME5}
+fi
+
+
+nlsyms=data/nlsyms.txt
+
+if [ ${stage} -le 2 ] && [ ${stop_stage} -ge 2 ]; then
+    log "stage 2: Create non linguistic symbols: ${nlsyms}"
+    cut -f 2- data/${train_set}/text | tr " " "\n" | sort | uniq | grep "\[" > ${nlsyms}
+    cat ${nlsyms}
+fi
+
+log "Successfully finished. [elapsed=${SECONDS}s]"
diff --git a/egs2/chime6/asr1/local/distant_audio_list b/egs2/chime6/asr1/local/distant_audio_list
new file mode 120000
index 00000000000..a1242f06853
--- /dev/null
+++ b/egs2/chime6/asr1/local/distant_audio_list
@@ -0,0 +1 @@
+../../../../egs/chime6/asr1/local/distant_audio_list
\ No newline at end of file
diff --git a/egs2/chime6/asr1/local/extract_noises.py b/egs2/chime6/asr1/local/extract_noises.py
new file mode 120000
index 00000000000..01379f56180
--- /dev/null
+++ b/egs2/chime6/asr1/local/extract_noises.py
@@ -0,0 +1 @@
+../../../../egs/chime6/asr1/local/extract_noises.py
\ No newline at end of file
diff --git a/egs2/chime6/asr1/local/generate_chime6_data.sh b/egs2/chime6/asr1/local/generate_chime6_data.sh
new file mode 120000
index 00000000000..7def41bbe7d
--- /dev/null
+++ b/egs2/chime6/asr1/local/generate_chime6_data.sh
@@ -0,0 +1 @@
+../../../../egs/chime6/asr1/local/generate_chime6_data.sh
\ No newline at end of file
diff --git a/egs2/chime6/asr1/local/install_pb_chime5.sh b/egs2/chime6/asr1/local/install_pb_chime5.sh
new file mode 120000
index 00000000000..f36ce54b6dd
--- /dev/null
+++ b/egs2/chime6/asr1/local/install_pb_chime5.sh
@@ -0,0 +1 @@
+../../../../egs/chime6/asr1/local/install_pb_chime5.sh
\ No newline at end of file
diff --git a/egs2/chime6/asr1/local/json2text.py b/egs2/chime6/asr1/local/json2text.py
new file mode 120000
index 00000000000..6a35baf5463
--- /dev/null
+++ b/egs2/chime6/asr1/local/json2text.py
@@ -0,0 +1 @@
+../../../../egs/chime6/asr1/local/json2text.py
\ No newline at end of file
diff --git a/egs2/chime6/asr1/local/make_noise_list.py b/egs2/chime6/asr1/local/make_noise_list.py
new file mode 120000
index 00000000000..cb215b86f53
--- /dev/null
+++ b/egs2/chime6/asr1/local/make_noise_list.py
@@ -0,0 +1 @@
+../../../../egs/chime6/asr1/local/make_noise_list.py
\ No newline at end of file
diff --git a/egs2/chime6/asr1/local/path.sh b/egs2/chime6/asr1/local/path.sh
new file mode 100644
index 00000000000..e69de29bb2d
diff --git a/egs2/chime6/asr1/local/prepare_baseline_chime6_data.sh b/egs2/chime6/asr1/local/prepare_baseline_chime6_data.sh
new file mode 120000
index 00000000000..b8e3f74395c
--- /dev/null
+++ b/egs2/chime6/asr1/local/prepare_baseline_chime6_data.sh
@@ -0,0 +1 @@
+../../../../egs/chime6/asr1/local/prepare_baseline_chime6_data.sh
\ No newline at end of file
diff --git a/egs2/chime6/asr1/local/prepare_data.sh b/egs2/chime6/asr1/local/prepare_data.sh
new file mode 120000
index 00000000000..8d61f0b8cb7
--- /dev/null
+++ b/egs2/chime6/asr1/local/prepare_data.sh
@@ -0,0 +1 @@
+../../../../egs/chime6/asr1/local/prepare_data.sh
\ No newline at end of file
diff --git a/egs2/chime6/asr1/local/prepare_dict.sh b/egs2/chime6/asr1/local/prepare_dict.sh
new file mode 120000
index 00000000000..da05482654b
--- /dev/null
+++ b/egs2/chime6/asr1/local/prepare_dict.sh
@@ -0,0 +1 @@
+../../../../egs/chime6/asr1/local/prepare_dict.sh
\ No newline at end of file
diff --git a/egs2/chime6/asr1/local/run_gss.sh b/egs2/chime6/asr1/local/run_gss.sh
new file mode 120000
index 00000000000..e48d208459c
--- /dev/null
+++ b/egs2/chime6/asr1/local/run_gss.sh
@@ -0,0 +1 @@
+../../../../egs/chime6/asr1/local/run_gss.sh
\ No newline at end of file
diff --git a/egs2/chime6/asr1/local/train_lms_srilm.sh b/egs2/chime6/asr1/local/train_lms_srilm.sh
new file mode 120000
index 00000000000..724f7cc6e03
--- /dev/null
+++ b/egs2/chime6/asr1/local/train_lms_srilm.sh
@@ -0,0 +1 @@
+../../../../egs/chime6/asr1/local/train_lms_srilm.sh
\ No newline at end of file
diff --git a/egs2/chime6/asr1/local/wer_output_filter b/egs2/chime6/asr1/local/wer_output_filter
new file mode 120000
index 00000000000..9d0fbd9066b
--- /dev/null
+++ b/egs2/chime6/asr1/local/wer_output_filter
@@ -0,0 +1 @@
+../../../../egs/chime6/asr1/local/wer_output_filter
\ No newline at end of file
diff --git a/egs2/chime6/asr1/path.sh b/egs2/chime6/asr1/path.sh
new file mode 120000
index 00000000000..c9ac0a75bc6
--- /dev/null
+++ b/egs2/chime6/asr1/path.sh
@@ -0,0 +1 @@
+../../TEMPLATE/asr1/path.sh
\ No newline at end of file
diff --git a/egs2/clarity21/enh_2021/pyscripts b/egs2/chime6/asr1/pyscripts
similarity index 100%
rename from egs2/clarity21/enh_2021/pyscripts
rename to egs2/chime6/asr1/pyscripts
diff --git a/egs2/chime6/asr1/run.sh b/egs2/chime6/asr1/run.sh
new file mode 100755
index 00000000000..99407dc0b08
--- /dev/null
+++ b/egs2/chime6/asr1/run.sh
@@ -0,0 +1,44 @@
+#!/usr/bin/env bash
+# Set bash to 'debug' mode, it will exit on :
+# -e 'error', -u 'undefined variable', -o ... 'error in pipeline', -x 'print commands',
+set -e
+set -u
+set -o pipefail
+
+
+
+train_set=train_worn_simu_u400k_cleaned
+valid_set=dev_gss_multiarray
+test_sets="dev_gss_multiarray"
+
+
+asr_config="conf/tuning/train_asr_transformer_wavlm_lr1e-3_specaug_accum1_preenc128_warmup20k.yaml"
+inference_config="conf/decode_asr_transformer.yaml"
+lm_config="conf/train_lm.yaml"
+
+bpe_nlsyms="[inaudible],[laughs],[noise]"
+
+use_lm=false
+use_word_lm=false
+word_vocab_size=65000
+
+./asr.sh \
+    --lang en \
+    --token_type bpe \
+    --nbpe 1000 \
+    --bpe_nlsyms "${bpe_nlsyms}" \
+    --nlsyms_txt "data/nlsyms.txt" \
+    --feats_type raw \
+    --audio_format "flac" \
+    --speed_perturb_factors "0.9 1.0 1.1" \
+    --asr_config "${asr_config}" \
+    --inference_config "${inference_config}" \
+    --use_lm ${use_lm} \
+    --lm_config "${lm_config}" \
+    --use_word_lm ${use_word_lm} \
+    --word_vocab_size ${word_vocab_size} \
+    --train_set "${train_set}" \
+    --valid_set "${valid_set}" \
+    --test_sets "${test_sets}" \
+    --bpe_train_text "data/${train_set}/text" \
+    --lm_train_text "data/${train_set}/text" "$@"
diff --git a/egs2/clarity21/enh_2021/scripts b/egs2/chime6/asr1/scripts
similarity index 100%
rename from egs2/clarity21/enh_2021/scripts
rename to egs2/chime6/asr1/scripts
diff --git a/egs2/chime6/asr1/steps b/egs2/chime6/asr1/steps
new file mode 120000
index 00000000000..91f2d234e20
--- /dev/null
+++ b/egs2/chime6/asr1/steps
@@ -0,0 +1 @@
+../../../tools/kaldi/egs/wsj/s5/steps
\ No newline at end of file
diff --git a/egs2/chime6/asr1/utils b/egs2/chime6/asr1/utils
new file mode 120000
index 00000000000..f49247da827
--- /dev/null
+++ b/egs2/chime6/asr1/utils
@@ -0,0 +1 @@
+../../../tools/kaldi/egs/wsj/s5/utils
\ No newline at end of file
diff --git a/egs2/clarity21/enh_2021/README.md b/egs2/clarity21/enh1/README.md
similarity index 100%
rename from egs2/clarity21/enh_2021/README.md
rename to egs2/clarity21/enh1/README.md
diff --git a/egs2/clarity21/enh1/cmd.sh b/egs2/clarity21/enh1/cmd.sh
new file mode 100644
index 00000000000..2aae6919fef
--- /dev/null
+++ b/egs2/clarity21/enh1/cmd.sh
@@ -0,0 +1,110 @@
+# ====== About run.pl, queue.pl, slurm.pl, and ssh.pl ======
+# Usage: <cmd>.pl [options] JOB=1:<nj> <log> <command...>
+# e.g.
+#   run.pl --mem 4G JOB=1:10 echo.JOB.log echo JOB
+#
+# Options:
+#   --time <time>: Limit the maximum time to execute.
+#   --mem <mem>: Limit the maximum memory usage.
+#   -–max-jobs-run <njob>: Limit the number parallel jobs. This is ignored for non-array jobs.
+#   --num-threads <ngpu>: Specify the number of CPU core.
+#   --gpu <ngpu>: Specify the number of GPU devices.
+#   --config: Change the configuration file from default.
+#
+# "JOB=1:10" is used for "array jobs" and it can control the number of parallel jobs.
+# The left string of "=", i.e. "JOB", is replaced by <N>(Nth job) in the command and the log file name,
+# e.g. "echo JOB" is changed to "echo 3" for the 3rd job and "echo 8" for 8th job respectively.
+# Note that the number must start with a positive number, so you can't use "JOB=0:10" for example.
+#
+# run.pl, queue.pl, slurm.pl, and ssh.pl have unified interface, not depending on its backend.
+# These options are mapping to specific options for each backend and
+# it is configured by "conf/queue.conf" and "conf/slurm.conf" by default.
+# If jobs failed, your configuration might be wrong for your environment.
+#
+#
+# The official documentation for run.pl, queue.pl, slurm.pl, and ssh.pl:
+#   "Parallelization in Kaldi": http://kaldi-asr.org/doc/queue.html
+# =========================================================~
+
+
+# Select the backend used by run.sh from "local", "stdout", "sge", "slurm", or "ssh"
+cmd_backend='local'
+
+# Local machine, without any Job scheduling system
+if [ "${cmd_backend}" = local ]; then
+
+    # The other usage
+    export train_cmd="run.pl"
+    # Used for "*_train.py": "--gpu" is appended optionally by run.sh
+    export cuda_cmd="run.pl"
+    # Used for "*_recog.py"
+    export decode_cmd="run.pl"
+
+# Local machine logging to stdout and log file, without any Job scheduling system
+elif [ "${cmd_backend}" = stdout ]; then
+
+    # The other usage
+    export train_cmd="stdout.pl"
+    # Used for "*_train.py": "--gpu" is appended optionally by run.sh
+    export cuda_cmd="stdout.pl"
+    # Used for "*_recog.py"
+    export decode_cmd="stdout.pl"
+
+
+# "qsub" (Sun Grid Engine, or derivation of it)
+elif [ "${cmd_backend}" = sge ]; then
+    # The default setting is written in conf/queue.conf.
+    # You must change "-q g.q" for the "queue" for your environment.
+    # To know the "queue" names, type "qhost -q"
+    # Note that to use "--gpu *", you have to setup "complex_value" for the system scheduler.
+
+    export train_cmd="queue.pl"
+    export cuda_cmd="queue.pl"
+    export decode_cmd="queue.pl"
+
+
+# "qsub" (Torque/PBS.)
+elif [ "${cmd_backend}" = pbs ]; then
+    # The default setting is written in conf/pbs.conf.
+
+    export train_cmd="pbs.pl"
+    export cuda_cmd="pbs.pl"
+    export decode_cmd="pbs.pl"
+
+
+# "sbatch" (Slurm)
+elif [ "${cmd_backend}" = slurm ]; then
+    # The default setting is written in conf/slurm.conf.
+    # You must change "-p cpu" and "-p gpu" for the "partition" for your environment.
+    # To know the "partion" names, type "sinfo".
+    # You can use "--gpu * " by default for slurm and it is interpreted as "--gres gpu:*"
+    # The devices are allocated exclusively using "${CUDA_VISIBLE_DEVICES}".
+
+    export train_cmd="slurm.pl"
+    export cuda_cmd="slurm.pl"
+    export decode_cmd="slurm.pl"
+
+elif [ "${cmd_backend}" = ssh ]; then
+    # You have to create ".queue/machines" to specify the host to execute jobs.
+    # e.g. .queue/machines
+    #   host1
+    #   host2
+    #   host3
+    # Assuming you can login them without any password, i.e. You have to set ssh keys.
+
+    export train_cmd="ssh.pl"
+    export cuda_cmd="ssh.pl"
+    export decode_cmd="ssh.pl"
+
+# This is an example of specifying several unique options in the JHU CLSP cluster setup.
+# Users can modify/add their own command options according to their cluster environments.
+elif [ "${cmd_backend}" = jhu ]; then
+
+    export train_cmd="queue.pl --mem 2G"
+    export cuda_cmd="queue-freegpu.pl --mem 2G --gpu 1 --config conf/queue.conf"
+    export decode_cmd="queue.pl --mem 4G"
+
+else
+    echo "$0: Error: Unknown cmd_backend=${cmd_backend}" 1>&2
+    return 1
+fi
diff --git a/egs2/clarity21/enh1/conf/pbs.conf b/egs2/clarity21/enh1/conf/pbs.conf
new file mode 100644
index 00000000000..119509938ce
--- /dev/null
+++ b/egs2/clarity21/enh1/conf/pbs.conf
@@ -0,0 +1,11 @@
+# Default configuration
+command qsub -V -v PATH -S /bin/bash
+option name=* -N $0
+option mem=* -l mem=$0
+option mem=0          # Do not add anything to qsub_opts
+option num_threads=* -l ncpus=$0
+option num_threads=1  # Do not add anything to qsub_opts
+option num_nodes=* -l nodes=$0:ppn=1
+default gpu=0
+option gpu=0
+option gpu=* -l ngpus=$0
diff --git a/egs2/clarity21/enh1/conf/queue.conf b/egs2/clarity21/enh1/conf/queue.conf
new file mode 100644
index 00000000000..500582fab31
--- /dev/null
+++ b/egs2/clarity21/enh1/conf/queue.conf
@@ -0,0 +1,12 @@
+# Default configuration
+command qsub -v PATH -cwd -S /bin/bash -j y -l arch=*64*
+option name=* -N $0
+option mem=* -l mem_free=$0,ram_free=$0
+option mem=0          # Do not add anything to qsub_opts
+option num_threads=* -pe smp $0
+option num_threads=1  # Do not add anything to qsub_opts
+option max_jobs_run=* -tc $0
+option num_nodes=* -pe mpi $0  # You must set this PE as allocation_rule=1
+default gpu=0
+option gpu=0
+option gpu=* -l gpu=$0 -q g.q
diff --git a/egs2/clarity21/enh1/conf/slurm.conf b/egs2/clarity21/enh1/conf/slurm.conf
new file mode 100644
index 00000000000..3b229673638
--- /dev/null
+++ b/egs2/clarity21/enh1/conf/slurm.conf
@@ -0,0 +1,14 @@
+# Default configuration
+command sbatch --export=PATH
+option name=* --job-name $0
+option time=* --time $0
+option mem=* --mem-per-cpu $0
+option mem=0
+option num_threads=* --cpus-per-task $0
+option num_threads=1 --cpus-per-task 1
+option num_nodes=* --nodes $0
+default gpu=0
+option gpu=0 -p cpu
+option gpu=* -p gpu --gres=gpu:$0 -c $0  # Recommend allocating more CPU than, or equal to the number of GPU
+# note: the --max-jobs-run option is supported as a special case
+# by slurm.pl and you don't have to handle it in the config file.
diff --git a/egs2/clarity21/enh_2021/conf/tuning/train_enh_beamformer_mvdr.yaml b/egs2/clarity21/enh1/conf/tuning/train_enh_beamformer_mvdr.yaml
similarity index 100%
rename from egs2/clarity21/enh_2021/conf/tuning/train_enh_beamformer_mvdr.yaml
rename to egs2/clarity21/enh1/conf/tuning/train_enh_beamformer_mvdr.yaml
diff --git a/egs2/clarity21/enh1/db.sh b/egs2/clarity21/enh1/db.sh
new file mode 120000
index 00000000000..50d86130898
--- /dev/null
+++ b/egs2/clarity21/enh1/db.sh
@@ -0,0 +1 @@
+../../TEMPLATE/asr1/db.sh
\ No newline at end of file
diff --git a/egs2/clarity21/enh_2021/enh.sh b/egs2/clarity21/enh1/enh.sh
similarity index 100%
rename from egs2/clarity21/enh_2021/enh.sh
rename to egs2/clarity21/enh1/enh.sh
diff --git a/egs2/clarity21/enh_2021/local/data.sh b/egs2/clarity21/enh1/local/data.sh
similarity index 100%
rename from egs2/clarity21/enh_2021/local/data.sh
rename to egs2/clarity21/enh1/local/data.sh
diff --git a/egs2/clarity21/enh1/local/path.sh b/egs2/clarity21/enh1/local/path.sh
new file mode 100644
index 00000000000..e69de29bb2d
diff --git a/egs2/clarity21/enh_2021/local/prep_data.py b/egs2/clarity21/enh1/local/prep_data.py
similarity index 99%
rename from egs2/clarity21/enh_2021/local/prep_data.py
rename to egs2/clarity21/enh1/local/prep_data.py
index fa61e757742..5ff0dc61b1d 100644
--- a/egs2/clarity21/enh_2021/local/prep_data.py
+++ b/egs2/clarity21/enh1/local/prep_data.py
@@ -2,7 +2,6 @@
 import json
 import os
 
-
 parser = argparse.ArgumentParser("Clarity")
 parser.add_argument(
     "--clarity_root",
diff --git a/egs2/clarity21/enh_2021/path.sh b/egs2/clarity21/enh1/path.sh
similarity index 100%
rename from egs2/clarity21/enh_2021/path.sh
rename to egs2/clarity21/enh1/path.sh
diff --git a/egs2/clarity21/enh1/pyscripts b/egs2/clarity21/enh1/pyscripts
new file mode 120000
index 00000000000..ac68ad75b60
--- /dev/null
+++ b/egs2/clarity21/enh1/pyscripts
@@ -0,0 +1 @@
+../../TEMPLATE/asr1/pyscripts
\ No newline at end of file
diff --git a/egs2/clarity21/enh_2021/run.sh b/egs2/clarity21/enh1/run.sh
similarity index 100%
rename from egs2/clarity21/enh_2021/run.sh
rename to egs2/clarity21/enh1/run.sh
diff --git a/egs2/clarity21/enh1/scripts b/egs2/clarity21/enh1/scripts
new file mode 120000
index 00000000000..b25829705dc
--- /dev/null
+++ b/egs2/clarity21/enh1/scripts
@@ -0,0 +1 @@
+../../TEMPLATE/asr1/scripts
\ No newline at end of file
diff --git a/egs2/clarity21/enh_2021/steps b/egs2/clarity21/enh1/steps
similarity index 100%
rename from egs2/clarity21/enh_2021/steps
rename to egs2/clarity21/enh1/steps
diff --git a/egs2/clarity21/enh_2021/utils b/egs2/clarity21/enh1/utils
similarity index 100%
rename from egs2/clarity21/enh_2021/utils
rename to egs2/clarity21/enh1/utils
diff --git a/egs2/conferencingspeech21/enh1/local/prepare_dev_data.py b/egs2/conferencingspeech21/enh1/local/prepare_dev_data.py
index 7ea801511b8..1e0d6f97354 100755
--- a/egs2/conferencingspeech21/enh1/local/prepare_dev_data.py
+++ b/egs2/conferencingspeech21/enh1/local/prepare_dev_data.py
@@ -3,8 +3,8 @@
 # Copyright 2021  Shanghai Jiao Tong University (Authors: Wangyou Zhang)
 # Apache 2.0
 import argparse
-from pathlib import Path
 import re
+from pathlib import Path
 
 from espnet2.fileio.datadir_writer import DatadirWriter
 from espnet2.utils.types import str2bool
diff --git a/egs2/covost2/st1/conf/fbank.conf b/egs2/covost2/st1/conf/fbank.conf
index d75ddde4df8..75232358639 100644
--- a/egs2/covost2/st1/conf/fbank.conf
+++ b/egs2/covost2/st1/conf/fbank.conf
@@ -1,2 +1,2 @@
---sample-frequency=8000 
+--sample-frequency=16000
 --num-mel-bins=80
diff --git a/egs2/covost2/st1/conf/pitch.conf b/egs2/covost2/st1/conf/pitch.conf
index 926bcfca92a..e959a19d5b8 100644
--- a/egs2/covost2/st1/conf/pitch.conf
+++ b/egs2/covost2/st1/conf/pitch.conf
@@ -1 +1 @@
---sample-frequency=8000
+--sample-frequency=16000
diff --git a/egs2/covost2/st1/run.sh b/egs2/covost2/st1/run.sh
index 5cd66dbaf53..778dc824185 100755
--- a/egs2/covost2/st1/run.sh
+++ b/egs2/covost2/st1/run.sh
@@ -38,7 +38,7 @@ tgt_case=lc.rm
 
 train_set=train.${src_lang}-${tgt_lang}
 train_dev=dev.${src_lang}-${tgt_lang}
-test_set="test.${src_lang}-${tgt_lang} dev.${src_lang}-${tgt_lang} "
+test_sets="test.${src_lang}-${tgt_lang} dev.${src_lang}-${tgt_lang}"
 
 st_config=conf/train_st.yaml
 inference_config=conf/decode_st.yaml
@@ -75,9 +75,9 @@ if [[ ${is_exist} == false ]]; then
 fi
 
 if [ ${is_low_resource} = true ]; then
-    speed_perturb_factors="0.9 1.0 1.1"
-else
     speed_perturb_factors="0.8 0.9 1.0 1.1 1.2"
+else
+    speed_perturb_factors="0.9 1.0 1.1"
 fi
 
 if [ ${src_lang} == ja ] || [ ${src_lang} == zh-CN ]; then
@@ -108,7 +108,7 @@ fi
     --inference_config "${inference_config}" \
     --train_set "${train_set}" \
     --valid_set "${train_dev}" \
-    --test_sets "${test_set}" \
+    --test_sets "${test_sets}" \
     --src_bpe_train_text "data/${train_set}/text.${src_case}.${src_lang}" \
     --tgt_bpe_train_text "data/${train_set}/text.${tgt_case}.${tgt_lang}" \
     --lm_train_text "data/${train_set}/text.${tgt_case}.${tgt_lang}"  "$@"
diff --git a/egs2/dirha_wsj/asr1/local/prepare_dirha_wsj.py b/egs2/dirha_wsj/asr1/local/prepare_dirha_wsj.py
index 8f017acd1e4..b29dabcf123 100755
--- a/egs2/dirha_wsj/asr1/local/prepare_dirha_wsj.py
+++ b/egs2/dirha_wsj/asr1/local/prepare_dirha_wsj.py
@@ -1,9 +1,9 @@
 #!/usr/bin/env python3
 import argparse
+import warnings
+import xml.etree.ElementTree as ET
 from pathlib import Path
 from typing import Optional
-import xml.etree.ElementTree as ET
-import warnings
 
 import numpy as np
 import soundfile
diff --git a/egs2/dsing/asr1/local/data_prep.py b/egs2/dsing/asr1/local/data_prep.py
index 98d82fe1259..4cc3e893e2d 100644
--- a/egs2/dsing/asr1/local/data_prep.py
+++ b/egs2/dsing/asr1/local/data_prep.py
@@ -1,11 +1,11 @@
 # Source from https://github.com/groadabike/Kaldi-Dsing-task
 
-import json
 import argparse
-from os.path import join, exists, isfile
-from os import makedirs, listdir
-import re
 import hashlib
+import json
+import re
+from os import listdir, makedirs
+from os.path import exists, isfile, join
 
 
 class DataSet:
diff --git a/egs2/fisher_callhome_spanish/st1/conf/decode_streaming_st.yaml b/egs2/fisher_callhome_spanish/st1/conf/decode_streaming_st.yaml
new file mode 100644
index 00000000000..9bbdb6347bd
--- /dev/null
+++ b/egs2/fisher_callhome_spanish/st1/conf/decode_streaming_st.yaml
@@ -0,0 +1,5 @@
+batch_size: 1
+beam_size: 10
+nbest: 1
+lm_weight: 0.0
+sim_chunk_length: 5120
diff --git a/egs2/fisher_callhome_spanish/st1/conf/train_st_streaming.yaml b/egs2/fisher_callhome_spanish/st1/conf/train_st_streaming.yaml
new file mode 100644
index 00000000000..35c149ded9b
--- /dev/null
+++ b/egs2/fisher_callhome_spanish/st1/conf/train_st_streaming.yaml
@@ -0,0 +1,95 @@
+# network architecture
+
+# frontend related
+frontend: default
+frontend_conf:
+    n_fft: 512
+    win_length: 400
+    hop_length: 160
+
+# encoder related
+# encoder related
+encoder: contextual_block_transformer
+encoder_conf:
+    output_size: 256
+    attention_heads: 4
+    linear_units: 2048
+    num_blocks: 12
+    dropout_rate: 0.1
+    positional_dropout_rate: 0.1
+    attention_dropout_rate: 0.1
+    input_layer: conv2d
+    normalize_before: true
+    block_size: 40
+    hop_size: 16
+    look_ahead: 16
+    init_average: true
+    ctx_pos_enc: true
+
+# decoder related
+decoder: transformer
+decoder_conf:
+    input_layer: embed
+    num_blocks: 6
+    linear_units: 2048
+    dropout_rate: 0.1
+
+extra_asr_decoder: transformer
+extra_asr_decoder_conf:
+    input_layer: embed
+    num_blocks: 2
+    linear_units: 2048
+    dropout_rate: 0.1
+
+extra_mt_decoder: transformer
+extra_mt_decoder_conf:
+    input_layer: embed
+    num_blocks: 2
+    linear_units: 2048
+    dropout_rate: 0.1
+
+# loss related
+model_conf:
+    asr_weight: 0.3
+    mt_weight: 0.0
+    mtlalpha: 1.0
+    lsm_weight: 0.1
+    length_normalized_loss: false
+
+# optimization related
+optim: adam
+accum_grad: 1
+grad_clip: 3
+max_epoch: 50
+optim_conf:
+    lr: 2.5
+scheduler: noamlr
+scheduler_conf:
+    model_size: 256
+    warmup_steps: 25000
+
+# minibatch related
+batch_type: folded
+batch_size: 128
+
+best_model_criterion:
+-   - valid
+    - acc
+    - max
+keep_nbest_models: 10
+num_att_plot: 0
+specaug: specaug
+specaug_conf:
+    apply_time_warp: true
+    time_warp_window: 5
+    time_warp_mode: bicubic
+    apply_freq_mask: true
+    freq_mask_width_range:
+    - 0
+    - 30
+    num_freq_mask: 2
+    apply_time_mask: true
+    time_mask_width_range:
+    - 0
+    - 40
+    num_time_mask: 2
diff --git a/egs2/fisher_callhome_spanish/st1/run.sh b/egs2/fisher_callhome_spanish/st1/run.sh
index e48d8924263..e07cb996cc6 100755
--- a/egs2/fisher_callhome_spanish/st1/run.sh
+++ b/egs2/fisher_callhome_spanish/st1/run.sh
@@ -22,6 +22,7 @@ src_case=lc.rm
 tgt_case=lc.rm
 
 ./st.sh \
+    --use_streaming false \
     --local_data_opts "--stage 0" \
     --audio_format "flac.ark" \
     --use_lm false \
diff --git a/egs2/fsc/asr1/conf/train_asr_streaming_transformer.yaml b/egs2/fsc/asr1/conf/train_asr_streaming_transformer.yaml
new file mode 100644
index 00000000000..7a344c514cf
--- /dev/null
+++ b/egs2/fsc/asr1/conf/train_asr_streaming_transformer.yaml
@@ -0,0 +1,58 @@
+# network architecture
+# encoder related
+encoder: contextual_block_transformer
+encoder_conf:
+    output_size: 256    # dimension of attention
+    attention_heads: 4
+    linear_units: 2048  # the number of units of position-wise feed forward
+    num_blocks: 12      # the number of encoder blocks
+    dropout_rate: 0.1
+    positional_dropout_rate: 0.1
+    attention_dropout_rate: 0.0
+    input_layer: conv2d # encoder architecture type
+    normalize_before: true
+    block_size: 40
+    hop_size: 16
+    look_ahead: 16
+    init_average: true
+    ctx_pos_enc: true
+
+# decoder related
+decoder: transformer
+decoder_conf:
+    attention_heads: 4
+    linear_units: 2048
+    num_blocks: 6
+    dropout_rate: 0.1
+    positional_dropout_rate: 0.1
+    self_attention_dropout_rate: 0.0
+    src_attention_dropout_rate: 0.0
+
+# minibatch related
+batch_type: folded
+batch_size: 64
+max_epoch: 200
+keep_nbest_models: 5
+
+optim: adam
+optim_conf:
+    lr: 0.0002
+scheduler: warmuplr     # pytorch v1.1.0+ required
+scheduler_conf:
+    warmup_steps: 25000
+num_att_plot: 0
+specaug: specaug
+specaug_conf:
+    apply_time_warp: true
+    time_warp_window: 5
+    time_warp_mode: bicubic
+    apply_freq_mask: true
+    freq_mask_width_range:
+    - 0
+    - 30
+    num_freq_mask: 2
+    apply_time_mask: true
+    time_mask_width_range:
+    - 0
+    - 40
+    num_time_mask: 2
diff --git a/egs2/fsc/asr1/local/data_prep.py b/egs2/fsc/asr1/local/data_prep.py
index f6cc9cb42ce..d430799ecbf 100644
--- a/egs2/fsc/asr1/local/data_prep.py
+++ b/egs2/fsc/asr1/local/data_prep.py
@@ -8,6 +8,7 @@
 import os
 import re
 import sys
+
 import pandas as pd
 
 if len(sys.argv) != 2:
diff --git a/egs2/fsc/asr1/run.sh b/egs2/fsc/asr1/run.sh
index 70b42c7ac61..3cea8d9bbc7 100755
--- a/egs2/fsc/asr1/run.sh
+++ b/egs2/fsc/asr1/run.sh
@@ -9,7 +9,7 @@ train_set="train"
 valid_set="valid"
 test_sets="test valid"
 
-if python3 -c 'import torch as t; from distutils.version import LooseVersion as L; assert L(t.__version__) >= L("1.7.0")' &> /dev/null;  then
+if python3 -c 'import torch as t; from packaging.version import parse as L; assert L(t.__version__) >= L("1.7.0")' &> /dev/null;  then
 	asr_config=conf/train_asr.yaml
 else
 	asr_config=conf/tuning/train_asr_transformer_adam_specaug.yaml #s3prl is installed when pytorch > 1.7. Hence using default frontend
diff --git a/egs2/fsc_challenge/asr1/local/data_prep.py b/egs2/fsc_challenge/asr1/local/data_prep.py
index 95de097faac..86dbd5b1ecf 100644
--- a/egs2/fsc_challenge/asr1/local/data_prep.py
+++ b/egs2/fsc_challenge/asr1/local/data_prep.py
@@ -5,9 +5,10 @@
 
 import os
 import re
+import string
 import sys
+
 import pandas as pd
-import string
 
 if len(sys.argv) != 2:
     print("Usage: python data_prep.py [fsc_root]")
diff --git a/egs2/fsc_challenge/asr1/run.sh b/egs2/fsc_challenge/asr1/run.sh
index 70b42c7ac61..3cea8d9bbc7 100755
--- a/egs2/fsc_challenge/asr1/run.sh
+++ b/egs2/fsc_challenge/asr1/run.sh
@@ -9,7 +9,7 @@ train_set="train"
 valid_set="valid"
 test_sets="test valid"
 
-if python3 -c 'import torch as t; from distutils.version import LooseVersion as L; assert L(t.__version__) >= L("1.7.0")' &> /dev/null;  then
+if python3 -c 'import torch as t; from packaging.version import parse as L; assert L(t.__version__) >= L("1.7.0")' &> /dev/null;  then
 	asr_config=conf/train_asr.yaml
 else
 	asr_config=conf/tuning/train_asr_transformer_adam_specaug.yaml #s3prl is installed when pytorch > 1.7. Hence using default frontend
diff --git a/egs2/fsc_unseen/asr1/local/data_prep.py b/egs2/fsc_unseen/asr1/local/data_prep.py
index 68d2d1798cf..cd81e313131 100644
--- a/egs2/fsc_unseen/asr1/local/data_prep.py
+++ b/egs2/fsc_unseen/asr1/local/data_prep.py
@@ -5,9 +5,10 @@
 
 import os
 import re
+import string
 import sys
+
 import pandas as pd
-import string
 
 if len(sys.argv) != 2:
     print("Usage: python data_prep.py [fsc_root]")
diff --git a/egs2/fsc_unseen/asr1/run.sh b/egs2/fsc_unseen/asr1/run.sh
index 70b42c7ac61..3cea8d9bbc7 100755
--- a/egs2/fsc_unseen/asr1/run.sh
+++ b/egs2/fsc_unseen/asr1/run.sh
@@ -9,7 +9,7 @@ train_set="train"
 valid_set="valid"
 test_sets="test valid"
 
-if python3 -c 'import torch as t; from distutils.version import LooseVersion as L; assert L(t.__version__) >= L("1.7.0")' &> /dev/null;  then
+if python3 -c 'import torch as t; from packaging.version import parse as L; assert L(t.__version__) >= L("1.7.0")' &> /dev/null;  then
 	asr_config=conf/train_asr.yaml
 else
 	asr_config=conf/tuning/train_asr_transformer_adam_specaug.yaml #s3prl is installed when pytorch > 1.7. Hence using default frontend
diff --git a/egs2/grabo/asr1/local/data_prep.py b/egs2/grabo/asr1/local/data_prep.py
index ef91723c164..8b76c178cc8 100644
--- a/egs2/grabo/asr1/local/data_prep.py
+++ b/egs2/grabo/asr1/local/data_prep.py
@@ -9,13 +9,12 @@
 # https://arxiv.org/pdf/2008.01994.pdf (for train/dev/test split)
 
 
-import os
+import argparse
 import glob
+import os
 import random
-import argparse
 import xml.etree.ElementTree as ET
 
-
 parser = argparse.ArgumentParser(description="Process Grabo dataset.")
 parser.add_argument(
     "--data_path",
diff --git a/egs2/grabo/asr1/local/score.py b/egs2/grabo/asr1/local/score.py
index b1c79a976c9..9ba1b759cdc 100644
--- a/egs2/grabo/asr1/local/score.py
+++ b/egs2/grabo/asr1/local/score.py
@@ -2,9 +2,9 @@
 
 # Copyright 2021 Carnegie Mellon University (Yifan Peng)
 
+import argparse
 import os
 import os.path
-import argparse
 
 parser = argparse.ArgumentParser(description="Calculate classification accuracy.")
 parser.add_argument("--wer_dir", type=str, help="folder containing hyp.trn and ref.trn")
diff --git a/egs2/indic_speech/tts1/local/data_prep.py b/egs2/indic_speech/tts1/local/data_prep.py
index 6229dc0e179..b3932f2f445 100644
--- a/egs2/indic_speech/tts1/local/data_prep.py
+++ b/egs2/indic_speech/tts1/local/data_prep.py
@@ -11,7 +11,6 @@
 
 from tqdm import tqdm
 
-
 if __name__ == "__main__":
     parser = argparse.ArgumentParser()
     parser.add_argument("-d", help="downloads directory", type=str, default="downloads")
diff --git a/egs2/iwslt14/mt1/run.sh b/egs2/iwslt14/mt1/run.sh
index b8567d2709a..7df3ae1d99d 100755
--- a/egs2/iwslt14/mt1/run.sh
+++ b/egs2/iwslt14/mt1/run.sh
@@ -10,7 +10,7 @@ tgt_lang=en
 
 train_set=train
 train_dev=valid
-test_set="test valid"
+test_sets="test valid"
 
 mt_config=conf/train_mt_transformer.yaml
 inference_config=conf/decode_mt.yaml
@@ -45,7 +45,7 @@ tgt_case=tc
     --inference_config "${inference_config}" \
     --train_set "${train_set}" \
     --valid_set "${train_dev}" \
-    --test_sets "${test_set}" \
+    --test_sets "${test_sets}" \
     --src_bpe_train_text "data/${train_set}/text.${src_case}.${src_lang}" \
     --tgt_bpe_train_text "data/${train_set}/text.${tgt_case}.${tgt_lang}" \
     --lm_train_text "data/${train_set}/text.${tgt_case}.${tgt_lang}" "$@"
diff --git a/egs2/iwslt21_low_resource/asr1/local/prepare_alffa_data.py b/egs2/iwslt21_low_resource/asr1/local/prepare_alffa_data.py
index 3fde4f274f0..a727ba21019 100755
--- a/egs2/iwslt21_low_resource/asr1/local/prepare_alffa_data.py
+++ b/egs2/iwslt21_low_resource/asr1/local/prepare_alffa_data.py
@@ -4,8 +4,8 @@
 #  Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
 
 import os
-from shutil import copyfile
 import sys
+from shutil import copyfile
 
 idir = sys.argv[1]
 
diff --git a/egs2/iwslt21_low_resource/asr1/local/prepare_iwslt_data.py b/egs2/iwslt21_low_resource/asr1/local/prepare_iwslt_data.py
index 95bd9f933a5..c5779746b97 100755
--- a/egs2/iwslt21_low_resource/asr1/local/prepare_iwslt_data.py
+++ b/egs2/iwslt21_low_resource/asr1/local/prepare_iwslt_data.py
@@ -6,6 +6,7 @@
 import argparse
 import os
 import re
+
 import yaml
 
 parser = argparse.ArgumentParser(
diff --git a/egs2/iwslt22_dialect/asr1/local/preprocess.py b/egs2/iwslt22_dialect/asr1/local/preprocess.py
index bbd1e42d342..f92f965e6dd 100755
--- a/egs2/iwslt22_dialect/asr1/local/preprocess.py
+++ b/egs2/iwslt22_dialect/asr1/local/preprocess.py
@@ -5,11 +5,11 @@
    TBD
 """
 
-import re
-import os
-import sys
 import argparse
 import itertools
+import os
+import re
+import sys
 
 parser = argparse.ArgumentParser()
 parser.add_argument(
diff --git a/egs2/iwslt22_dialect/st1/local/preprocess.py b/egs2/iwslt22_dialect/st1/local/preprocess.py
index 2d02de1eb64..2e21e0d604c 100755
--- a/egs2/iwslt22_dialect/st1/local/preprocess.py
+++ b/egs2/iwslt22_dialect/st1/local/preprocess.py
@@ -5,11 +5,11 @@
    TBD
 """
 
-import re
-import os
-import sys
 import argparse
 import itertools
+import os
+import re
+import sys
 
 parser = argparse.ArgumentParser()
 parser.add_argument(
diff --git a/egs2/jdcinal/asr1/local/score.py b/egs2/jdcinal/asr1/local/score.py
index 8b68151c4e7..59d9d4ef900 100755
--- a/egs2/jdcinal/asr1/local/score.py
+++ b/egs2/jdcinal/asr1/local/score.py
@@ -8,6 +8,7 @@
 import os
 import re
 import sys
+
 import pandas as pd
 
 
diff --git a/egs2/jkac/tts1/local/prep_segments.py b/egs2/jkac/tts1/local/prep_segments.py
index 2090624521e..3a6213890d2 100755
--- a/egs2/jkac/tts1/local/prep_segments.py
+++ b/egs2/jkac/tts1/local/prep_segments.py
@@ -4,10 +4,11 @@
 #  Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
 
 import argparse
-from collections import namedtuple
 import os
 import re
 import sys
+from collections import namedtuple
+
 import yaml
 
 
diff --git a/egs2/jmd/tts1/local/clean_text.py b/egs2/jmd/tts1/local/clean_text.py
index 5110effc9e4..1a73ef3bf7b 100755
--- a/egs2/jmd/tts1/local/clean_text.py
+++ b/egs2/jmd/tts1/local/clean_text.py
@@ -6,7 +6,6 @@
 import argparse
 import re
 
-
 if __name__ == "__main__":
     parser = argparse.ArgumentParser()
     parser.add_argument(
diff --git a/egs2/jtubespeech/tts1/local/prune.py b/egs2/jtubespeech/tts1/local/prune.py
index a6beac9d8d3..f09ce6164b8 100644
--- a/egs2/jtubespeech/tts1/local/prune.py
+++ b/egs2/jtubespeech/tts1/local/prune.py
@@ -3,11 +3,12 @@
 # Copyright 2021 Takaaki Saeki
 #  Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
 
-import os
+import argparse
 import glob
-import tqdm
+import os
+
 import soundfile as sf
-import argparse
+import tqdm
 
 if __name__ == "__main__":
     parser = argparse.ArgumentParser()
diff --git a/egs2/jtubespeech/tts1/local/split.py b/egs2/jtubespeech/tts1/local/split.py
index df59e412941..277e42dc9a5 100644
--- a/egs2/jtubespeech/tts1/local/split.py
+++ b/egs2/jtubespeech/tts1/local/split.py
@@ -3,11 +3,12 @@
 # Copyright 2021 Takaaki Saeki
 #  Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
 
-import os
+import argparse
 import glob
-import tqdm
+import os
+
 import soundfile as sf
-import argparse
+import tqdm
 
 if __name__ == "__main__":
     parser = argparse.ArgumentParser()
diff --git a/egs2/jv_openslr35/asr1/local/data_prep.py b/egs2/jv_openslr35/asr1/local/data_prep.py
index 4cb5a47596b..5d831435277 100644
--- a/egs2/jv_openslr35/asr1/local/data_prep.py
+++ b/egs2/jv_openslr35/asr1/local/data_prep.py
@@ -8,7 +8,6 @@
 import os
 import random
 
-
 if __name__ == "__main__":
     parser = argparse.ArgumentParser()
     parser.add_argument("-d", help="downloads directory", type=str, default="downloads")
diff --git a/egs2/ksponspeech/asr1/local/get_space_normalized_hyps.py b/egs2/ksponspeech/asr1/local/get_space_normalized_hyps.py
index c105b47c578..1f5225bfe83 100755
--- a/egs2/ksponspeech/asr1/local/get_space_normalized_hyps.py
+++ b/egs2/ksponspeech/asr1/local/get_space_normalized_hyps.py
@@ -4,11 +4,11 @@
 # Copyright 2020 Electronics and Telecommunications Research Institute (Jeong-Uk, Bang)
 #  Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
 
-import configargparse
 import logging
 import os
 import sys
 
+import configargparse
 from numpy import zeros
 
 space_sym = "▁"
diff --git a/egs2/ksponspeech/asr1/local/get_transcriptions.py b/egs2/ksponspeech/asr1/local/get_transcriptions.py
index 9d1db4b9225..771c377641f 100644
--- a/egs2/ksponspeech/asr1/local/get_transcriptions.py
+++ b/egs2/ksponspeech/asr1/local/get_transcriptions.py
@@ -5,13 +5,14 @@
 #  Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
 
 import codecs
-import configargparse
 import logging
 import os
 import re
 import shutil
 import sys
 
+import configargparse
+
 
 def get_parser():
     """Get default arguments."""
diff --git a/egs2/kss/tts1/conf/tuning/train_jets.yaml b/egs2/kss/tts1/conf/tuning/train_jets.yaml
new file mode 100644
index 00000000000..940fbaedff7
--- /dev/null
+++ b/egs2/kss/tts1/conf/tuning/train_jets.yaml
@@ -0,0 +1,218 @@
+# This configuration is for ESPnet2 to train JETS, which
+# is truely end-to-end text-to-waveform model. To run
+# this config, you need to specify "--tts_task gan_tts"
+# option for tts.sh at least and use 24000 hz audio as
+# the training data (mainly tested on LJspeech).
+# This configuration tested on 4 GPUs (V100) with 32GB GPU
+# memory. It takes around 2 weeks to finish the training
+# but 100k iters model should generate reasonable results.
+
+##########################################################
+#                  TTS MODEL SETTING                     #
+##########################################################
+tts: jets
+tts_conf:
+    # generator related
+    generator_type: jets_generator
+    generator_params:
+        adim: 256                                    # attention dimension
+        aheads: 2                                    # number of attention heads
+        elayers: 4                                   # number of encoder layers
+        eunits: 1024                                 # number of encoder ff units
+        dlayers: 4                                   # number of decoder layers
+        dunits: 1024                                 # number of decoder ff units
+        positionwise_layer_type: conv1d              # type of position-wise layer
+        positionwise_conv_kernel_size: 3             # kernel size of position wise conv layer
+        duration_predictor_layers: 2                 # number of layers of duration predictor
+        duration_predictor_chans: 256                # number of channels of duration predictor
+        duration_predictor_kernel_size: 3            # filter size of duration predictor
+        use_masking: True                            # whether to apply masking for padded part in loss calculation
+        encoder_normalize_before: True               # whether to perform layer normalization before the input
+        decoder_normalize_before: True               # whether to perform layer normalization before the input
+        encoder_type: transformer                    # encoder type
+        decoder_type: transformer                    # decoder type
+        conformer_rel_pos_type: latest               # relative positional encoding type
+        conformer_pos_enc_layer_type: rel_pos        # conformer positional encoding type
+        conformer_self_attn_layer_type: rel_selfattn # conformer self-attention type
+        conformer_activation_type: swish             # conformer activation type
+        use_macaron_style_in_conformer: true         # whether to use macaron style in conformer
+        use_cnn_in_conformer: true                   # whether to use CNN in conformer
+        conformer_enc_kernel_size: 7                 # kernel size in CNN module of conformer-based encoder
+        conformer_dec_kernel_size: 31                # kernel size in CNN module of conformer-based decoder
+        init_type: xavier_uniform                    # initialization type
+        transformer_enc_dropout_rate: 0.2            # dropout rate for transformer encoder layer
+        transformer_enc_positional_dropout_rate: 0.2 # dropout rate for transformer encoder positional encoding
+        transformer_enc_attn_dropout_rate: 0.2       # dropout rate for transformer encoder attention layer
+        transformer_dec_dropout_rate: 0.2            # dropout rate for transformer decoder layer
+        transformer_dec_positional_dropout_rate: 0.2 # dropout rate for transformer decoder positional encoding
+        transformer_dec_attn_dropout_rate: 0.2       # dropout rate for transformer decoder attention layer
+        pitch_predictor_layers: 5                    # number of conv layers in pitch predictor
+        pitch_predictor_chans: 256                   # number of channels of conv layers in pitch predictor
+        pitch_predictor_kernel_size: 5               # kernel size of conv leyers in pitch predictor
+        pitch_predictor_dropout: 0.5                 # dropout rate in pitch predictor
+        pitch_embed_kernel_size: 1                   # kernel size of conv embedding layer for pitch
+        pitch_embed_dropout: 0.0                     # dropout rate after conv embedding layer for pitch
+        stop_gradient_from_pitch_predictor: true     # whether to stop the gradient from pitch predictor to encoder
+        energy_predictor_layers: 2                   # number of conv layers in energy predictor
+        energy_predictor_chans: 256                  # number of channels of conv layers in energy predictor
+        energy_predictor_kernel_size: 3              # kernel size of conv leyers in energy predictor
+        energy_predictor_dropout: 0.5                # dropout rate in energy predictor
+        energy_embed_kernel_size: 1                  # kernel size of conv embedding layer for energy
+        energy_embed_dropout: 0.0                    # dropout rate after conv embedding layer for energy
+        stop_gradient_from_energy_predictor: false   # whether to stop the gradient from energy predictor to encoder
+        generator_out_channels: 1
+        generator_channels: 512
+        generator_global_channels: -1
+        generator_kernel_size: 7
+        generator_upsample_scales: [8, 8, 2, 2]
+        generator_upsample_kernel_sizes: [16, 16, 4, 4]
+        generator_resblock_kernel_sizes: [3, 7, 11]
+        generator_resblock_dilations: [[1, 3, 5], [1, 3, 5], [1, 3, 5]]
+        generator_use_additional_convs: true
+        generator_bias: true
+        generator_nonlinear_activation: "LeakyReLU"
+        generator_nonlinear_activation_params:
+            negative_slope: 0.1
+        generator_use_weight_norm: true
+        segment_size: 64                             # segment size for random windowed discriminator
+
+    # discriminator related
+    discriminator_type: hifigan_multi_scale_multi_period_discriminator
+    discriminator_params:
+        scales: 1
+        scale_downsample_pooling: "AvgPool1d"
+        scale_downsample_pooling_params:
+            kernel_size: 4
+            stride: 2
+            padding: 2
+        scale_discriminator_params:
+            in_channels: 1
+            out_channels: 1
+            kernel_sizes: [15, 41, 5, 3]
+            channels: 128
+            max_downsample_channels: 1024
+            max_groups: 16
+            bias: True
+            downsample_scales: [2, 2, 4, 4, 1]
+            nonlinear_activation: "LeakyReLU"
+            nonlinear_activation_params:
+                negative_slope: 0.1
+            use_weight_norm: True
+            use_spectral_norm: False
+        follow_official_norm: False
+        periods: [2, 3, 5, 7, 11]
+        period_discriminator_params:
+            in_channels: 1
+            out_channels: 1
+            kernel_sizes: [5, 3]
+            channels: 32
+            downsample_scales: [3, 3, 3, 3, 1]
+            max_downsample_channels: 1024
+            bias: True
+            nonlinear_activation: "LeakyReLU"
+            nonlinear_activation_params:
+                negative_slope: 0.1
+            use_weight_norm: True
+            use_spectral_norm: False
+
+    # loss function related
+    generator_adv_loss_params:
+        average_by_discriminators: false # whether to average loss value by #discriminators
+        loss_type: mse                   # loss type, "mse" or "hinge"
+    discriminator_adv_loss_params:
+        average_by_discriminators: false # whether to average loss value by #discriminators
+        loss_type: mse                   # loss type, "mse" or "hinge"
+    feat_match_loss_params:
+        average_by_discriminators: false # whether to average loss value by #discriminators
+        average_by_layers: false         # whether to average loss value by #layers of each discriminator
+        include_final_outputs: true      # whether to include final outputs for loss calculation
+    mel_loss_params:
+        fs: 24000                        # must be the same as the training data
+        n_fft: 1024                      # fft points
+        hop_length: 256                  # hop size
+        win_length: null                 # window length
+        window: hann                     # window type
+        n_mels: 80                       # number of Mel basis
+        fmin: 0                          # minimum frequency for Mel basis
+        fmax: null                       # maximum frequency for Mel basis
+        log_base: null                   # null represent natural log
+    lambda_adv: 1.0                      # loss scaling coefficient for adversarial loss
+    lambda_mel: 45.0                     # loss scaling coefficient for Mel loss
+    lambda_feat_match: 2.0               # loss scaling coefficient for feat match loss
+    lambda_var: 1.0
+    lambda_align: 2.0
+    # others
+    sampling_rate: 24000                 # needed in the inference for saving wav
+    cache_generator_outputs: true        # whether to cache generator outputs in the training
+
+# extra module for additional inputs
+pitch_extract: dio           # pitch extractor type
+pitch_extract_conf:
+    reduction_factor: 1
+    use_token_averaged_f0: false
+pitch_normalize: global_mvn  # normalizer for the pitch feature
+energy_extract: energy       # energy extractor type
+energy_extract_conf:
+    reduction_factor: 1
+    use_token_averaged_energy: false
+energy_normalize: global_mvn # normalizer for the energy feature
+
+##########################################################
+#            OPTIMIZER & SCHEDULER SETTING               #
+##########################################################
+# optimizer setting for generator
+optim: adamw
+optim_conf:
+    lr: 2.0e-4
+    betas: [0.8, 0.99]
+    eps: 1.0e-9
+    weight_decay: 0.0
+scheduler: exponentiallr
+scheduler_conf:
+    gamma: 0.999875
+# optimizer setting for discriminator
+optim2: adamw
+optim2_conf:
+    lr: 2.0e-4
+    betas: [0.8, 0.99]
+    eps: 1.0e-9
+    weight_decay: 0.0
+scheduler2: exponentiallr
+scheduler2_conf:
+    gamma: 0.999875
+generator_first: true # whether to start updating generator first
+
+##########################################################
+#                OTHER TRAINING SETTING                  #
+##########################################################
+num_iters_per_epoch: 1000 # number of iterations per epoch
+max_epoch: 1000           # number of epochs
+accum_grad: 1             # gradient accumulation
+batch_bins: 2000000       # batch bins (feats_type=raw)
+batch_type: numel         # how to make batch
+grad_clip: -1             # gradient clipping norm
+grad_noise: false         # whether to use gradient noise injection
+sort_in_batch: descending # how to sort data in making batch
+sort_batch: descending    # how to sort created batches
+num_workers: 4            # number of workers of data loader
+use_amp: false            # whether to use pytorch amp
+log_interval: 50          # log interval in iterations
+keep_nbest_models: 5      # number of models to keep
+num_att_plot: 3           # number of attention figures to be saved in every check
+seed: 777                 # random seed number
+patience: null            # patience for early stopping
+unused_parameters: true   # needed for multi gpu case
+best_model_criterion:     # criterion to save the best models
+-   - valid
+    - text2mel_loss
+    - min
+-   - train
+    - text2mel_loss
+    - min
+-   - train
+    - total_count
+    - max
+cudnn_deterministic: false # setting to false accelerates the training speed but makes it non-deterministic
+                           # in the case of GAN-TTS training, we strongly recommend setting to false
+cudnn_benchmark: false     # setting to true might acdelerate the training speed but sometimes decrease it
+                           # therefore, we set to false as a default (recommend trying both cases)
diff --git a/egs2/librimix/diar1/local/prepare_diarization.py b/egs2/librimix/diar1/local/prepare_diarization.py
index b4ab66e5c44..ca42c42e21f 100755
--- a/egs2/librimix/diar1/local/prepare_diarization.py
+++ b/egs2/librimix/diar1/local/prepare_diarization.py
@@ -1,6 +1,6 @@
+import argparse
 import os
 import re
-import argparse
 
 
 def float2str(number, size=6):
diff --git a/egs2/ljspeech/tts1/conf/tuning/train_jets.yaml b/egs2/ljspeech/tts1/conf/tuning/train_jets.yaml
new file mode 100644
index 00000000000..a5d75ca1f33
--- /dev/null
+++ b/egs2/ljspeech/tts1/conf/tuning/train_jets.yaml
@@ -0,0 +1,218 @@
+# This configuration is for ESPnet2 to train JETS, which
+# is truely end-to-end text-to-waveform model. To run
+# this config, you need to specify "--tts_task gan_tts"
+# option for tts.sh at least and use 22050 hz audio as
+# the training data (mainly tested on LJspeech).
+# This configuration tested on 4 GPUs (V100) with 32GB GPU
+# memory. It takes around 1.5 weeks to finish the training
+# but 100k iters model should generate reasonable results.
+
+##########################################################
+#                  TTS MODEL SETTING                     #
+##########################################################
+tts: jets
+tts_conf:
+    # generator related
+    generator_type: jets_generator
+    generator_params:
+        adim: 256                                    # attention dimension
+        aheads: 2                                    # number of attention heads
+        elayers: 4                                   # number of encoder layers
+        eunits: 1024                                 # number of encoder ff units
+        dlayers: 4                                   # number of decoder layers
+        dunits: 1024                                 # number of decoder ff units
+        positionwise_layer_type: conv1d              # type of position-wise layer
+        positionwise_conv_kernel_size: 3             # kernel size of position wise conv layer
+        duration_predictor_layers: 2                 # number of layers of duration predictor
+        duration_predictor_chans: 256                # number of channels of duration predictor
+        duration_predictor_kernel_size: 3            # filter size of duration predictor
+        use_masking: True                            # whether to apply masking for padded part in loss calculation
+        encoder_normalize_before: True               # whether to perform layer normalization before the input
+        decoder_normalize_before: True               # whether to perform layer normalization before the input
+        encoder_type: transformer                    # encoder type
+        decoder_type: transformer                    # decoder type
+        conformer_rel_pos_type: latest               # relative positional encoding type
+        conformer_pos_enc_layer_type: rel_pos        # conformer positional encoding type
+        conformer_self_attn_layer_type: rel_selfattn # conformer self-attention type
+        conformer_activation_type: swish             # conformer activation type
+        use_macaron_style_in_conformer: true         # whether to use macaron style in conformer
+        use_cnn_in_conformer: true                   # whether to use CNN in conformer
+        conformer_enc_kernel_size: 7                 # kernel size in CNN module of conformer-based encoder
+        conformer_dec_kernel_size: 31                # kernel size in CNN module of conformer-based decoder
+        init_type: xavier_uniform                    # initialization type
+        transformer_enc_dropout_rate: 0.2            # dropout rate for transformer encoder layer
+        transformer_enc_positional_dropout_rate: 0.2 # dropout rate for transformer encoder positional encoding
+        transformer_enc_attn_dropout_rate: 0.2       # dropout rate for transformer encoder attention layer
+        transformer_dec_dropout_rate: 0.2            # dropout rate for transformer decoder layer
+        transformer_dec_positional_dropout_rate: 0.2 # dropout rate for transformer decoder positional encoding
+        transformer_dec_attn_dropout_rate: 0.2       # dropout rate for transformer decoder attention layer
+        pitch_predictor_layers: 5                    # number of conv layers in pitch predictor
+        pitch_predictor_chans: 256                   # number of channels of conv layers in pitch predictor
+        pitch_predictor_kernel_size: 5               # kernel size of conv leyers in pitch predictor
+        pitch_predictor_dropout: 0.5                 # dropout rate in pitch predictor
+        pitch_embed_kernel_size: 1                   # kernel size of conv embedding layer for pitch
+        pitch_embed_dropout: 0.0                     # dropout rate after conv embedding layer for pitch
+        stop_gradient_from_pitch_predictor: true     # whether to stop the gradient from pitch predictor to encoder
+        energy_predictor_layers: 2                   # number of conv layers in energy predictor
+        energy_predictor_chans: 256                  # number of channels of conv layers in energy predictor
+        energy_predictor_kernel_size: 3              # kernel size of conv leyers in energy predictor
+        energy_predictor_dropout: 0.5                # dropout rate in energy predictor
+        energy_embed_kernel_size: 1                  # kernel size of conv embedding layer for energy
+        energy_embed_dropout: 0.0                    # dropout rate after conv embedding layer for energy
+        stop_gradient_from_energy_predictor: false   # whether to stop the gradient from energy predictor to encoder
+        generator_out_channels: 1
+        generator_channels: 512
+        generator_global_channels: -1
+        generator_kernel_size: 7
+        generator_upsample_scales: [8, 8, 2, 2]
+        generator_upsample_kernel_sizes: [16, 16, 4, 4]
+        generator_resblock_kernel_sizes: [3, 7, 11]
+        generator_resblock_dilations: [[1, 3, 5], [1, 3, 5], [1, 3, 5]]
+        generator_use_additional_convs: true
+        generator_bias: true
+        generator_nonlinear_activation: "LeakyReLU"
+        generator_nonlinear_activation_params:
+            negative_slope: 0.1
+        generator_use_weight_norm: true
+        segment_size: 64                             # segment size for random windowed discriminator
+
+    # discriminator related
+    discriminator_type: hifigan_multi_scale_multi_period_discriminator
+    discriminator_params:
+        scales: 1
+        scale_downsample_pooling: "AvgPool1d"
+        scale_downsample_pooling_params:
+            kernel_size: 4
+            stride: 2
+            padding: 2
+        scale_discriminator_params:
+            in_channels: 1
+            out_channels: 1
+            kernel_sizes: [15, 41, 5, 3]
+            channels: 128
+            max_downsample_channels: 1024
+            max_groups: 16
+            bias: True
+            downsample_scales: [2, 2, 4, 4, 1]
+            nonlinear_activation: "LeakyReLU"
+            nonlinear_activation_params:
+                negative_slope: 0.1
+            use_weight_norm: True
+            use_spectral_norm: False
+        follow_official_norm: False
+        periods: [2, 3, 5, 7, 11]
+        period_discriminator_params:
+            in_channels: 1
+            out_channels: 1
+            kernel_sizes: [5, 3]
+            channels: 32
+            downsample_scales: [3, 3, 3, 3, 1]
+            max_downsample_channels: 1024
+            bias: True
+            nonlinear_activation: "LeakyReLU"
+            nonlinear_activation_params:
+                negative_slope: 0.1
+            use_weight_norm: True
+            use_spectral_norm: False
+
+    # loss function related
+    generator_adv_loss_params:
+        average_by_discriminators: false # whether to average loss value by #discriminators
+        loss_type: mse                   # loss type, "mse" or "hinge"
+    discriminator_adv_loss_params:
+        average_by_discriminators: false # whether to average loss value by #discriminators
+        loss_type: mse                   # loss type, "mse" or "hinge"
+    feat_match_loss_params:
+        average_by_discriminators: false # whether to average loss value by #discriminators
+        average_by_layers: false         # whether to average loss value by #layers of each discriminator
+        include_final_outputs: true      # whether to include final outputs for loss calculation
+    mel_loss_params:
+        fs: 22050                        # must be the same as the training data
+        n_fft: 1024                      # fft points
+        hop_length: 256                  # hop size
+        win_length: null                 # window length
+        window: hann                     # window type
+        n_mels: 80                       # number of Mel basis
+        fmin: 0                          # minimum frequency for Mel basis
+        fmax: null                       # maximum frequency for Mel basis
+        log_base: null                   # null represent natural log
+    lambda_adv: 1.0                      # loss scaling coefficient for adversarial loss
+    lambda_mel: 45.0                     # loss scaling coefficient for Mel loss
+    lambda_feat_match: 2.0               # loss scaling coefficient for feat match loss
+    lambda_var: 1.0
+    lambda_align: 2.0
+    # others
+    sampling_rate: 22050                 # needed in the inference for saving wav
+    cache_generator_outputs: true        # whether to cache generator outputs in the training
+
+# extra module for additional inputs
+pitch_extract: dio           # pitch extractor type
+pitch_extract_conf:
+    reduction_factor: 1
+    use_token_averaged_f0: false
+pitch_normalize: global_mvn  # normalizer for the pitch feature
+energy_extract: energy       # energy extractor type
+energy_extract_conf:
+    reduction_factor: 1
+    use_token_averaged_energy: false
+energy_normalize: global_mvn # normalizer for the energy feature
+
+##########################################################
+#            OPTIMIZER & SCHEDULER SETTING               #
+##########################################################
+# optimizer setting for generator
+optim: adamw
+optim_conf:
+    lr: 2.0e-4
+    betas: [0.8, 0.99]
+    eps: 1.0e-9
+    weight_decay: 0.0
+scheduler: exponentiallr
+scheduler_conf:
+    gamma: 0.999875
+# optimizer setting for discriminator
+optim2: adamw
+optim2_conf:
+    lr: 2.0e-4
+    betas: [0.8, 0.99]
+    eps: 1.0e-9
+    weight_decay: 0.0
+scheduler2: exponentiallr
+scheduler2_conf:
+    gamma: 0.999875
+generator_first: true # whether to start updating generator first
+
+##########################################################
+#                OTHER TRAINING SETTING                  #
+##########################################################
+num_iters_per_epoch: 1000 # number of iterations per epoch
+max_epoch: 1000           # number of epochs
+accum_grad: 1             # gradient accumulation
+batch_bins: 3000000       # batch bins (feats_type=raw)
+batch_type: numel         # how to make batch
+grad_clip: -1             # gradient clipping norm
+grad_noise: false         # whether to use gradient noise injection
+sort_in_batch: descending # how to sort data in making batch
+sort_batch: descending    # how to sort created batches
+num_workers: 4            # number of workers of data loader
+use_amp: false            # whether to use pytorch amp
+log_interval: 50          # log interval in iterations
+keep_nbest_models: 5      # number of models to keep
+num_att_plot: 3           # number of attention figures to be saved in every check
+seed: 777                 # random seed number
+patience: null            # patience for early stopping
+unused_parameters: true   # needed for multi gpu case
+best_model_criterion:     # criterion to save the best models
+-   - valid
+    - text2mel_loss
+    - min
+-   - train
+    - text2mel_loss
+    - min
+-   - train
+    - total_count
+    - max
+cudnn_deterministic: false # setting to false accelerates the training speed but makes it non-deterministic
+                           # in the case of GAN-TTS training, we strongly recommend setting to false
+cudnn_benchmark: false     # setting to true might acdelerate the training speed but sometimes decrease it
+                           # therefore, we set to false as a default (recommend trying both cases)
diff --git a/egs2/lrs2/lipreading1/local/feature_extract/cvtransforms.py b/egs2/lrs2/lipreading1/local/feature_extract/cvtransforms.py
index 8a2c0710a7d..b7dac9c0d1f 100644
--- a/egs2/lrs2/lipreading1/local/feature_extract/cvtransforms.py
+++ b/egs2/lrs2/lipreading1/local/feature_extract/cvtransforms.py
@@ -1,5 +1,6 @@
 # coding: utf-8
 import random
+
 import cv2
 import numpy as np
 
diff --git a/egs2/lrs2/lipreading1/local/feature_extract/extract_visual_feature.py b/egs2/lrs2/lipreading1/local/feature_extract/extract_visual_feature.py
index 8164bdb54ba..b4efd021081 100644
--- a/egs2/lrs2/lipreading1/local/feature_extract/extract_visual_feature.py
+++ b/egs2/lrs2/lipreading1/local/feature_extract/extract_visual_feature.py
@@ -4,17 +4,17 @@
 #  Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
 
 import argparse
-from distutils.util import strtobool
 import logging
+from distutils.util import strtobool
 
 import kaldiio
 import numpy
 import resampy
 from video_processing import *
 
+from espnet2.utils.types import int_or_none
 from espnet.utils.cli_utils import get_commandline_args
 from espnet.utils.cli_writers import file_writer_helper
-from espnet2.utils.types import int_or_none
 
 
 def get_parser():
diff --git a/egs2/lrs2/lipreading1/local/feature_extract/models/pretrained.py b/egs2/lrs2/lipreading1/local/feature_extract/models/pretrained.py
index ef0fd388231..feb10aa5a89 100755
--- a/egs2/lrs2/lipreading1/local/feature_extract/models/pretrained.py
+++ b/egs2/lrs2/lipreading1/local/feature_extract/models/pretrained.py
@@ -1,8 +1,7 @@
 # coding: utf-8
 import math
-import numpy as np
-
 
+import numpy as np
 import torch
 import torch.nn as nn
 from torch.autograd import Variable
diff --git a/egs2/lrs2/lipreading1/local/feature_extract/video_processing.py b/egs2/lrs2/lipreading1/local/feature_extract/video_processing.py
index 216de5d03f1..b9812b18d3c 100644
--- a/egs2/lrs2/lipreading1/local/feature_extract/video_processing.py
+++ b/egs2/lrs2/lipreading1/local/feature_extract/video_processing.py
@@ -1,8 +1,8 @@
-import skvideo.io
-import skimage.transform
+import cvtransforms
 import face_alignment
 import numpy as np
-import cvtransforms
+import skimage.transform
+import skvideo.io
 import torch
 from models import pretrained
 
diff --git a/egs2/lrs3/asr1/local/data_prep.py b/egs2/lrs3/asr1/local/data_prep.py
index 2ba8c7a816b..a3458813eeb 100644
--- a/egs2/lrs3/asr1/local/data_prep.py
+++ b/egs2/lrs3/asr1/local/data_prep.py
@@ -5,12 +5,13 @@
 # Apache 2.0
 
 
-import os
 import argparse
 import logging
-import numpy as np
+import os
 from pathlib import Path
-from typing import Union, List
+from typing import List, Union
+
+import numpy as np
 
 
 class Utils:
diff --git a/egs2/mediaspeech/asr1/local/data_prep.py b/egs2/mediaspeech/asr1/local/data_prep.py
index 42162c53da0..ba92504859d 100755
--- a/egs2/mediaspeech/asr1/local/data_prep.py
+++ b/egs2/mediaspeech/asr1/local/data_prep.py
@@ -1,12 +1,11 @@
-import os
-import os.path
-import json
+import argparse
 import glob
+import json
 import math
-import argparse
+import os
+import os.path
 import random
 
-
 parser = argparse.ArgumentParser(description="Prepare mediaspeech")
 parser.add_argument(
     "--data_path", type=str, help="Path to the directory containing all files"
diff --git a/egs2/microsoft_speech/asr1/local/process.py b/egs2/microsoft_speech/asr1/local/process.py
index eab7b85de9a..f0ff3b862a2 100644
--- a/egs2/microsoft_speech/asr1/local/process.py
+++ b/egs2/microsoft_speech/asr1/local/process.py
@@ -1,10 +1,10 @@
-import os
-import wave
 import contextlib
-from tqdm import tqdm
+import os
 import random
 import sys
+import wave
 
+from tqdm import tqdm
 
 microsoft_speech_corpus_path = sys.argv[1]
 lang = sys.argv[2]
diff --git a/egs2/mini_an4/st1/cmd.sh b/egs2/mini_an4/st1/cmd.sh
new file mode 100755
index 00000000000..2aae6919fef
--- /dev/null
+++ b/egs2/mini_an4/st1/cmd.sh
@@ -0,0 +1,110 @@
+# ====== About run.pl, queue.pl, slurm.pl, and ssh.pl ======
+# Usage: <cmd>.pl [options] JOB=1:<nj> <log> <command...>
+# e.g.
+#   run.pl --mem 4G JOB=1:10 echo.JOB.log echo JOB
+#
+# Options:
+#   --time <time>: Limit the maximum time to execute.
+#   --mem <mem>: Limit the maximum memory usage.
+#   -–max-jobs-run <njob>: Limit the number parallel jobs. This is ignored for non-array jobs.
+#   --num-threads <ngpu>: Specify the number of CPU core.
+#   --gpu <ngpu>: Specify the number of GPU devices.
+#   --config: Change the configuration file from default.
+#
+# "JOB=1:10" is used for "array jobs" and it can control the number of parallel jobs.
+# The left string of "=", i.e. "JOB", is replaced by <N>(Nth job) in the command and the log file name,
+# e.g. "echo JOB" is changed to "echo 3" for the 3rd job and "echo 8" for 8th job respectively.
+# Note that the number must start with a positive number, so you can't use "JOB=0:10" for example.
+#
+# run.pl, queue.pl, slurm.pl, and ssh.pl have unified interface, not depending on its backend.
+# These options are mapping to specific options for each backend and
+# it is configured by "conf/queue.conf" and "conf/slurm.conf" by default.
+# If jobs failed, your configuration might be wrong for your environment.
+#
+#
+# The official documentation for run.pl, queue.pl, slurm.pl, and ssh.pl:
+#   "Parallelization in Kaldi": http://kaldi-asr.org/doc/queue.html
+# =========================================================~
+
+
+# Select the backend used by run.sh from "local", "stdout", "sge", "slurm", or "ssh"
+cmd_backend='local'
+
+# Local machine, without any Job scheduling system
+if [ "${cmd_backend}" = local ]; then
+
+    # The other usage
+    export train_cmd="run.pl"
+    # Used for "*_train.py": "--gpu" is appended optionally by run.sh
+    export cuda_cmd="run.pl"
+    # Used for "*_recog.py"
+    export decode_cmd="run.pl"
+
+# Local machine logging to stdout and log file, without any Job scheduling system
+elif [ "${cmd_backend}" = stdout ]; then
+
+    # The other usage
+    export train_cmd="stdout.pl"
+    # Used for "*_train.py": "--gpu" is appended optionally by run.sh
+    export cuda_cmd="stdout.pl"
+    # Used for "*_recog.py"
+    export decode_cmd="stdout.pl"
+
+
+# "qsub" (Sun Grid Engine, or derivation of it)
+elif [ "${cmd_backend}" = sge ]; then
+    # The default setting is written in conf/queue.conf.
+    # You must change "-q g.q" for the "queue" for your environment.
+    # To know the "queue" names, type "qhost -q"
+    # Note that to use "--gpu *", you have to setup "complex_value" for the system scheduler.
+
+    export train_cmd="queue.pl"
+    export cuda_cmd="queue.pl"
+    export decode_cmd="queue.pl"
+
+
+# "qsub" (Torque/PBS.)
+elif [ "${cmd_backend}" = pbs ]; then
+    # The default setting is written in conf/pbs.conf.
+
+    export train_cmd="pbs.pl"
+    export cuda_cmd="pbs.pl"
+    export decode_cmd="pbs.pl"
+
+
+# "sbatch" (Slurm)
+elif [ "${cmd_backend}" = slurm ]; then
+    # The default setting is written in conf/slurm.conf.
+    # You must change "-p cpu" and "-p gpu" for the "partition" for your environment.
+    # To know the "partion" names, type "sinfo".
+    # You can use "--gpu * " by default for slurm and it is interpreted as "--gres gpu:*"
+    # The devices are allocated exclusively using "${CUDA_VISIBLE_DEVICES}".
+
+    export train_cmd="slurm.pl"
+    export cuda_cmd="slurm.pl"
+    export decode_cmd="slurm.pl"
+
+elif [ "${cmd_backend}" = ssh ]; then
+    # You have to create ".queue/machines" to specify the host to execute jobs.
+    # e.g. .queue/machines
+    #   host1
+    #   host2
+    #   host3
+    # Assuming you can login them without any password, i.e. You have to set ssh keys.
+
+    export train_cmd="ssh.pl"
+    export cuda_cmd="ssh.pl"
+    export decode_cmd="ssh.pl"
+
+# This is an example of specifying several unique options in the JHU CLSP cluster setup.
+# Users can modify/add their own command options according to their cluster environments.
+elif [ "${cmd_backend}" = jhu ]; then
+
+    export train_cmd="queue.pl --mem 2G"
+    export cuda_cmd="queue-freegpu.pl --mem 2G --gpu 1 --config conf/queue.conf"
+    export decode_cmd="queue.pl --mem 4G"
+
+else
+    echo "$0: Error: Unknown cmd_backend=${cmd_backend}" 1>&2
+    return 1
+fi
diff --git a/egs2/mini_an4/st1/conf/fbank.conf b/egs2/mini_an4/st1/conf/fbank.conf
new file mode 100755
index 00000000000..82ac7bd0dbc
--- /dev/null
+++ b/egs2/mini_an4/st1/conf/fbank.conf
@@ -0,0 +1,2 @@
+--sample-frequency=16000 
+--num-mel-bins=80
diff --git a/egs2/mini_an4/st1/conf/pbs.conf b/egs2/mini_an4/st1/conf/pbs.conf
new file mode 100755
index 00000000000..119509938ce
--- /dev/null
+++ b/egs2/mini_an4/st1/conf/pbs.conf
@@ -0,0 +1,11 @@
+# Default configuration
+command qsub -V -v PATH -S /bin/bash
+option name=* -N $0
+option mem=* -l mem=$0
+option mem=0          # Do not add anything to qsub_opts
+option num_threads=* -l ncpus=$0
+option num_threads=1  # Do not add anything to qsub_opts
+option num_nodes=* -l nodes=$0:ppn=1
+default gpu=0
+option gpu=0
+option gpu=* -l ngpus=$0
diff --git a/egs2/mini_an4/st1/conf/pitch.conf b/egs2/mini_an4/st1/conf/pitch.conf
new file mode 100755
index 00000000000..e959a19d5b8
--- /dev/null
+++ b/egs2/mini_an4/st1/conf/pitch.conf
@@ -0,0 +1 @@
+--sample-frequency=16000
diff --git a/egs2/mini_an4/st1/conf/queue.conf b/egs2/mini_an4/st1/conf/queue.conf
new file mode 100755
index 00000000000..500582fab31
--- /dev/null
+++ b/egs2/mini_an4/st1/conf/queue.conf
@@ -0,0 +1,12 @@
+# Default configuration
+command qsub -v PATH -cwd -S /bin/bash -j y -l arch=*64*
+option name=* -N $0
+option mem=* -l mem_free=$0,ram_free=$0
+option mem=0          # Do not add anything to qsub_opts
+option num_threads=* -pe smp $0
+option num_threads=1  # Do not add anything to qsub_opts
+option max_jobs_run=* -tc $0
+option num_nodes=* -pe mpi $0  # You must set this PE as allocation_rule=1
+default gpu=0
+option gpu=0
+option gpu=* -l gpu=$0 -q g.q
diff --git a/egs2/mini_an4/st1/conf/slurm.conf b/egs2/mini_an4/st1/conf/slurm.conf
new file mode 100755
index 00000000000..3b229673638
--- /dev/null
+++ b/egs2/mini_an4/st1/conf/slurm.conf
@@ -0,0 +1,14 @@
+# Default configuration
+command sbatch --export=PATH
+option name=* --job-name $0
+option time=* --time $0
+option mem=* --mem-per-cpu $0
+option mem=0
+option num_threads=* --cpus-per-task $0
+option num_threads=1 --cpus-per-task 1
+option num_nodes=* --nodes $0
+default gpu=0
+option gpu=0 -p cpu
+option gpu=* -p gpu --gres=gpu:$0 -c $0  # Recommend allocating more CPU than, or equal to the number of GPU
+# note: the --max-jobs-run option is supported as a special case
+# by slurm.pl and you don't have to handle it in the config file.
diff --git a/egs2/mini_an4/st1/conf/train_st.yaml b/egs2/mini_an4/st1/conf/train_st.yaml
new file mode 100644
index 00000000000..4e2d9531fd8
--- /dev/null
+++ b/egs2/mini_an4/st1/conf/train_st.yaml
@@ -0,0 +1,6 @@
+model_conf:
+    asr_weight: 0.3
+    mt_weight: 0.0
+    mtlalpha: 1.0
+    lsm_weight: 0.1
+    length_normalized_loss: false
diff --git a/egs2/mini_an4/st1/conf/train_st_streaming.yaml b/egs2/mini_an4/st1/conf/train_st_streaming.yaml
new file mode 100644
index 00000000000..878d1d8f1a9
--- /dev/null
+++ b/egs2/mini_an4/st1/conf/train_st_streaming.yaml
@@ -0,0 +1,9 @@
+model_conf:
+    asr_weight: 0.3
+    mt_weight: 0.0
+    mtlalpha: 1.0
+    lsm_weight: 0.1
+    length_normalized_loss: false
+encoder: contextual_block_transformer
+decoder: transformer
+max_epoch: 5
diff --git a/egs2/mini_an4/st1/db.sh b/egs2/mini_an4/st1/db.sh
new file mode 120000
index 00000000000..50d86130898
--- /dev/null
+++ b/egs2/mini_an4/st1/db.sh
@@ -0,0 +1 @@
+../../TEMPLATE/asr1/db.sh
\ No newline at end of file
diff --git a/egs2/mini_an4/st1/downloads.tar.gz b/egs2/mini_an4/st1/downloads.tar.gz
new file mode 120000
index 00000000000..e916a05f1df
--- /dev/null
+++ b/egs2/mini_an4/st1/downloads.tar.gz
@@ -0,0 +1 @@
+../../../egs/mini_an4/asr1/downloads.tar.gz
\ No newline at end of file
diff --git a/egs2/mini_an4/st1/local/data.sh b/egs2/mini_an4/st1/local/data.sh
new file mode 100755
index 00000000000..030b7c30df5
--- /dev/null
+++ b/egs2/mini_an4/st1/local/data.sh
@@ -0,0 +1,85 @@
+#!/usr/bin/env bash
+# Set bash to 'debug' mode, it will exit on :
+# -e 'error', -u 'undefined variable', -o ... 'error in pipeline', -x 'print commands',
+set -e
+set -u
+set -o pipefail
+
+log() {
+    local fname=${BASH_SOURCE[1]##*/}
+    echo -e "$(date '+%Y-%m-%dT%H:%M:%S') (${fname}:${BASH_LINENO[0]}:${FUNCNAME[1]}) $*"
+}
+SECONDS=0
+
+stage=1
+stop_stage=100
+
+an4_root=./downloads/an4
+
+log "$0 $*"
+. utils/parse_options.sh
+
+if [ $# -ne 0 ]; then
+    log "Error: No positional arguments are required."
+    exit 2
+fi
+
+. ./path.sh
+. ./cmd.sh
+
+train_set="train_nodev"
+train_dev="train_dev"
+
+
+if [ ${stage} -le 1 ] && [ ${stop_stage} -ge 1 ]; then
+    log "stage 1: Untar downloads.tar.gz"
+    if [ ! -e downloads/ ]; then
+        tar -xvf downloads.tar.gz
+    fi
+fi
+
+
+if [ ${stage} -le 2 ] && [ ${stop_stage} -ge 2 ]; then
+    log "stage 2: Data preparation"
+    mkdir -p data/{train,test}
+
+    if [ ! -f ${an4_root}/README ]; then
+        echo Cannot find an4 root! Exiting...
+        exit 1
+    fi
+
+    python3 local/data_prep.py ${an4_root} sph2pipe
+
+    for x in test train; do
+        for f in text wav.scp utt2spk; do
+            sort data/${x}/${f} -o data/${x}/${f}
+        done
+        utils/utt2spk_to_spk2utt.pl data/${x}/utt2spk > data/${x}/spk2utt
+    done
+
+    # make a dev set
+    utils/subset_data_dir.sh --first data/train 1 data/${train_dev}
+    n=$(($(wc -l < data/train/text) - 1))
+    utils/subset_data_dir.sh --last data/train ${n} data/${train_set}
+
+    # Create "test_seg" in order to test the use case of segments
+    rm -rf data/test_seg
+    utils/copy_data_dir.sh data/test data/test_seg
+    <data/test/wav.scp awk '{ for(i=2;i<=NF;i++){a=a " " $i}; print($1 "_org", a) }' > data/test_seg/wav.scp
+    cat << EOF > data/test_seg/segments
+fcaw-cen8-b fcaw-cen8-b_org 0.0 2.9
+mmxg-cen8-b mmxg-cen8-b_org 0.0 2.3
+EOF
+
+    # for enh task
+    for x in test ${train_set} ${train_dev}; do
+        cp data/${x}/wav.scp data/${x}/spk1.scp
+    done
+fi
+
+for x in test test_seg ${train_set} ${train_dev}; do
+	cp data/${x}/text data/${x}/text.lc.rm.en
+	cp data/${x}/text data/${x}/text.tc.en
+done
+
+log "Successfully finished. [elapsed=${SECONDS}s]"
diff --git a/egs2/mini_an4/st1/local/data_prep.py b/egs2/mini_an4/st1/local/data_prep.py
new file mode 120000
index 00000000000..d416349ede8
--- /dev/null
+++ b/egs2/mini_an4/st1/local/data_prep.py
@@ -0,0 +1 @@
+../../../../egs/an4/asr1/local/data_prep.py
\ No newline at end of file
diff --git a/egs2/mini_an4/st1/local/download_and_untar.sh b/egs2/mini_an4/st1/local/download_and_untar.sh
new file mode 120000
index 00000000000..40bf437ab02
--- /dev/null
+++ b/egs2/mini_an4/st1/local/download_and_untar.sh
@@ -0,0 +1 @@
+../../../../egs/an4/asr1/local/download_and_untar.sh
\ No newline at end of file
diff --git a/egs2/mini_an4/st1/local/path.sh b/egs2/mini_an4/st1/local/path.sh
new file mode 100755
index 00000000000..e69de29bb2d
diff --git a/egs2/mini_an4/st1/path.sh b/egs2/mini_an4/st1/path.sh
new file mode 120000
index 00000000000..c9ac0a75bc6
--- /dev/null
+++ b/egs2/mini_an4/st1/path.sh
@@ -0,0 +1 @@
+../../TEMPLATE/asr1/path.sh
\ No newline at end of file
diff --git a/egs2/mini_an4/st1/pyscripts b/egs2/mini_an4/st1/pyscripts
new file mode 120000
index 00000000000..ac68ad75b60
--- /dev/null
+++ b/egs2/mini_an4/st1/pyscripts
@@ -0,0 +1 @@
+../../TEMPLATE/asr1/pyscripts
\ No newline at end of file
diff --git a/egs2/mini_an4/st1/run.sh b/egs2/mini_an4/st1/run.sh
new file mode 100755
index 00000000000..068f2cda5d2
--- /dev/null
+++ b/egs2/mini_an4/st1/run.sh
@@ -0,0 +1,29 @@
+#!/usr/bin/env bash
+# Set bash to 'debug' mode, it will exit on :
+# -e 'error', -u 'undefined variable', -o ... 'error in pipeline', -x 'print commands',
+set -e
+set -u
+set -o pipefail
+
+src_case=lc.rm
+tgt_case=lc.rm
+st_config=conf/train_st.yaml
+
+./st.sh \
+    --src_lang en \
+    --tgt_lang en \
+    --src_token_type "bpe" \
+    --src_nbpe 30 \
+    --tgt_token_type "bpe" \
+    --tgt_nbpe 30 \
+    --src_case ${src_case} \
+    --tgt_case ${tgt_case} \
+    --src_bpe_train_text "data/train_nodev/text.${src_case}.en" \
+    --tgt_bpe_train_text "data/train_nodev/text.${tgt_case}.en" \
+    --use_lm false \
+    --token_joint false \
+    --st_config "${st_config}" \
+    --train_set "train_nodev" \
+    --valid_set "train_dev" \
+    --test_sets "train_dev test test_seg" \
+    --lm_train_text "data/train_nodev/text.${tgt_case}.en" "$@"
diff --git a/egs2/mini_an4/st1/scripts b/egs2/mini_an4/st1/scripts
new file mode 120000
index 00000000000..b25829705dc
--- /dev/null
+++ b/egs2/mini_an4/st1/scripts
@@ -0,0 +1 @@
+../../TEMPLATE/asr1/scripts
\ No newline at end of file
diff --git a/egs2/mini_an4/st1/st.sh b/egs2/mini_an4/st1/st.sh
new file mode 120000
index 00000000000..5c7465739e3
--- /dev/null
+++ b/egs2/mini_an4/st1/st.sh
@@ -0,0 +1 @@
+../../TEMPLATE/st1/st.sh
\ No newline at end of file
diff --git a/egs2/mini_an4/st1/steps b/egs2/mini_an4/st1/steps
new file mode 120000
index 00000000000..91f2d234e20
--- /dev/null
+++ b/egs2/mini_an4/st1/steps
@@ -0,0 +1 @@
+../../../tools/kaldi/egs/wsj/s5/steps
\ No newline at end of file
diff --git a/egs2/mini_an4/st1/utils b/egs2/mini_an4/st1/utils
new file mode 120000
index 00000000000..f49247da827
--- /dev/null
+++ b/egs2/mini_an4/st1/utils
@@ -0,0 +1 @@
+../../../tools/kaldi/egs/wsj/s5/utils
\ No newline at end of file
diff --git a/egs2/mini_librispeech/diar1/local/simulation/make_mixture.py b/egs2/mini_librispeech/diar1/local/simulation/make_mixture.py
index ad16f72ec18..8f5fbaef5f9 100755
--- a/egs2/mini_librispeech/diar1/local/simulation/make_mixture.py
+++ b/egs2/mini_librispeech/diar1/local/simulation/make_mixture.py
@@ -13,12 +13,13 @@
 
 
 import argparse
+import json
+import math
 import os
+
 import common
 import numpy as np
-import math
 import soundfile as sf
-import json
 
 parser = argparse.ArgumentParser()
 parser.add_argument("script", help="list of json")
diff --git a/egs2/mini_librispeech/diar1/local/simulation/make_mixture_nooverlap.py b/egs2/mini_librispeech/diar1/local/simulation/make_mixture_nooverlap.py
index 9b8c24cd87f..2d79dbddc0f 100755
--- a/egs2/mini_librispeech/diar1/local/simulation/make_mixture_nooverlap.py
+++ b/egs2/mini_librispeech/diar1/local/simulation/make_mixture_nooverlap.py
@@ -14,12 +14,13 @@
 
 
 import argparse
+import json
+import math
 import os
+
 import common
 import numpy as np
-import math
 import soundfile as sf
-import json
 
 parser = argparse.ArgumentParser()
 parser.add_argument("script", help="list of json")
diff --git a/egs2/mini_librispeech/diar1/local/simulation/random_mixture.py b/egs2/mini_librispeech/diar1/local/simulation/random_mixture.py
index 7d67d056d99..61022c56ff5 100755
--- a/egs2/mini_librispeech/diar1/local/simulation/random_mixture.py
+++ b/egs2/mini_librispeech/diar1/local/simulation/random_mixture.py
@@ -40,12 +40,13 @@
 """
 
 import argparse
+import itertools
+import json
 import os
-import common
 import random
+
+import common
 import numpy as np
-import json
-import itertools
 
 parser = argparse.ArgumentParser()
 parser.add_argument("data_dir", help="data dir of single-speaker recordings")
diff --git a/egs2/mini_librispeech/diar1/local/simulation/random_mixture_nooverlap.py b/egs2/mini_librispeech/diar1/local/simulation/random_mixture_nooverlap.py
index b6e417f81ab..acbdde34f20 100755
--- a/egs2/mini_librispeech/diar1/local/simulation/random_mixture_nooverlap.py
+++ b/egs2/mini_librispeech/diar1/local/simulation/random_mixture_nooverlap.py
@@ -42,12 +42,13 @@
 """
 
 import argparse
+import itertools
+import json
 import os
-import common
 import random
+
+import common
 import numpy as np
-import json
-import itertools
 
 parser = argparse.ArgumentParser()
 parser.add_argument("data_dir", help="data dir of single-speaker recordings")
diff --git a/egs2/misp2021/asr1/local/find_wav.py b/egs2/misp2021/asr1/local/find_wav.py
index 216c30de4c9..22979044bdc 100755
--- a/egs2/misp2021/asr1/local/find_wav.py
+++ b/egs2/misp2021/asr1/local/find_wav.py
@@ -1,9 +1,9 @@
 #!/usr/bin/env python
 # _*_ coding: UTF-8 _*_
-import os
-import glob
-import codecs
 import argparse
+import codecs
+import glob
+import os
 
 
 def find_wav(data_root, scp_dir, scp_name="wpe", wav_type="Far", n_split=1):
diff --git a/egs2/misp2021/asr1/local/prepare_far_data.py b/egs2/misp2021/asr1/local/prepare_far_data.py
index b98766f2168..ac845a8043d 100755
--- a/egs2/misp2021/asr1/local/prepare_far_data.py
+++ b/egs2/misp2021/asr1/local/prepare_far_data.py
@@ -1,11 +1,11 @@
 #!/usr/bin/env python
 # -- coding: UTF-8
-import os
-import glob
-import codecs
 import argparse
-from multiprocessing import Pool
+import codecs
+import glob
+import os
 import sys
+from multiprocessing import Pool
 
 
 def text2lines(textpath, lines_content=None):
diff --git a/egs2/misp2021/asr1/local/run_beamformit.py b/egs2/misp2021/asr1/local/run_beamformit.py
index 8070542bb30..d55b7bf30a4 100755
--- a/egs2/misp2021/asr1/local/run_beamformit.py
+++ b/egs2/misp2021/asr1/local/run_beamformit.py
@@ -1,7 +1,7 @@
 #!/usr/bin/env python
 # _*_ coding: UTF-8 _*_
-import os
 import argparse
+import os
 
 
 def beamformit_worker(
diff --git a/egs2/misp2021/asr1/local/run_wpe.py b/egs2/misp2021/asr1/local/run_wpe.py
index 0815dd1dfae..b66037a20a0 100755
--- a/egs2/misp2021/asr1/local/run_wpe.py
+++ b/egs2/misp2021/asr1/local/run_wpe.py
@@ -1,13 +1,14 @@
 #!/usr/bin/env python
 # _*_ coding: UTF-8 _*_
-import os
-import codecs
 import argparse
+import codecs
+import os
+from multiprocessing import Pool
+
 import numpy as np
 import scipy.io.wavfile as wf
-from multiprocessing import Pool
+from nara_wpe.utils import istft, stft
 from nara_wpe.wpe import wpe_v8 as wpe
-from nara_wpe.utils import stft, istft
 
 
 def wpe_worker(
diff --git a/egs2/misp2021/avsr1/local/concatenate_feature.py b/egs2/misp2021/avsr1/local/concatenate_feature.py
index 41676ca21a1..ff6a1fcc8b8 100755
--- a/egs2/misp2021/avsr1/local/concatenate_feature.py
+++ b/egs2/misp2021/avsr1/local/concatenate_feature.py
@@ -1,8 +1,9 @@
 #!/usr/bin/env python
 # _*_ coding: UTF-8 _*_
-import os
-import codecs
 import argparse
+import codecs
+import os
+
 import kaldiio
 import numpy as np
 from tqdm import tqdm
diff --git a/egs2/misp2021/avsr1/local/find_wav.py b/egs2/misp2021/avsr1/local/find_wav.py
index 216c30de4c9..22979044bdc 100755
--- a/egs2/misp2021/avsr1/local/find_wav.py
+++ b/egs2/misp2021/avsr1/local/find_wav.py
@@ -1,9 +1,9 @@
 #!/usr/bin/env python
 # _*_ coding: UTF-8 _*_
-import os
-import glob
-import codecs
 import argparse
+import codecs
+import glob
+import os
 
 
 def find_wav(data_root, scp_dir, scp_name="wpe", wav_type="Far", n_split=1):
diff --git a/egs2/misp2021/avsr1/local/prepare_far_data.py b/egs2/misp2021/avsr1/local/prepare_far_data.py
index b98766f2168..ac845a8043d 100755
--- a/egs2/misp2021/avsr1/local/prepare_far_data.py
+++ b/egs2/misp2021/avsr1/local/prepare_far_data.py
@@ -1,11 +1,11 @@
 #!/usr/bin/env python
 # -- coding: UTF-8
-import os
-import glob
-import codecs
 import argparse
-from multiprocessing import Pool
+import codecs
+import glob
+import os
 import sys
+from multiprocessing import Pool
 
 
 def text2lines(textpath, lines_content=None):
diff --git a/egs2/misp2021/avsr1/local/prepare_far_video_roi.py b/egs2/misp2021/avsr1/local/prepare_far_video_roi.py
index 32d8a0fae4d..01accc5ec9a 100755
--- a/egs2/misp2021/avsr1/local/prepare_far_video_roi.py
+++ b/egs2/misp2021/avsr1/local/prepare_far_video_roi.py
@@ -1,14 +1,15 @@
 #!/usr/bin/env python
 # _*_ coding: UTF-8 _*_
-import os
-import cv2
+import argparse
+import codecs
 import json
+import os
 import time
-import codecs
-import argparse
+from multiprocessing import Pool
+
+import cv2
 import numpy as np
 from tqdm import tqdm
-from multiprocessing import Pool
 
 
 def crop_frame_roi(frame, roi_bound, roi_size=(96, 96)):
diff --git a/egs2/misp2021/avsr1/local/prepare_visual_embedding_extractor.py b/egs2/misp2021/avsr1/local/prepare_visual_embedding_extractor.py
index 38eb7f60611..4cb619f79db 100755
--- a/egs2/misp2021/avsr1/local/prepare_visual_embedding_extractor.py
+++ b/egs2/misp2021/avsr1/local/prepare_visual_embedding_extractor.py
@@ -1,8 +1,9 @@
 #!/usr/bin/env python
 # _*_ coding: UTF-8 _*_
-import os
-import codecs
 import argparse
+import codecs
+import os
+
 from tqdm import tqdm
 
 
diff --git a/egs2/misp2021/avsr1/local/run_beamformit.py b/egs2/misp2021/avsr1/local/run_beamformit.py
index 8070542bb30..d55b7bf30a4 100755
--- a/egs2/misp2021/avsr1/local/run_beamformit.py
+++ b/egs2/misp2021/avsr1/local/run_beamformit.py
@@ -1,7 +1,7 @@
 #!/usr/bin/env python
 # _*_ coding: UTF-8 _*_
-import os
 import argparse
+import os
 
 
 def beamformit_worker(
diff --git a/egs2/misp2021/avsr1/local/run_wpe.py b/egs2/misp2021/avsr1/local/run_wpe.py
index 0815dd1dfae..b66037a20a0 100755
--- a/egs2/misp2021/avsr1/local/run_wpe.py
+++ b/egs2/misp2021/avsr1/local/run_wpe.py
@@ -1,13 +1,14 @@
 #!/usr/bin/env python
 # _*_ coding: UTF-8 _*_
-import os
-import codecs
 import argparse
+import codecs
+import os
+from multiprocessing import Pool
+
 import numpy as np
 import scipy.io.wavfile as wf
-from multiprocessing import Pool
+from nara_wpe.utils import istft, stft
 from nara_wpe.wpe import wpe_v8 as wpe
-from nara_wpe.utils import stft, istft
 
 
 def wpe_worker(
diff --git a/egs2/ml_openslr63/asr1/local/data_prep.py b/egs2/ml_openslr63/asr1/local/data_prep.py
index bd174f75e68..84cb779d18b 100644
--- a/egs2/ml_openslr63/asr1/local/data_prep.py
+++ b/egs2/ml_openslr63/asr1/local/data_prep.py
@@ -9,7 +9,6 @@
 import os
 import random
 
-
 if __name__ == "__main__":
     parser = argparse.ArgumentParser()
     parser.add_argument("-d", help="downloads directory", type=str, default="downloads")
diff --git a/egs2/mr_openslr64/asr1/local/data_prep.py b/egs2/mr_openslr64/asr1/local/data_prep.py
index ed446ef71ae..f1f0245f657 100644
--- a/egs2/mr_openslr64/asr1/local/data_prep.py
+++ b/egs2/mr_openslr64/asr1/local/data_prep.py
@@ -8,7 +8,6 @@
 import os
 import random
 
-
 if __name__ == "__main__":
     parser = argparse.ArgumentParser()
     parser.add_argument("-d", help="downloads directory", type=str, default="downloads")
diff --git a/egs2/ms_indic_18/asr1/local/prepare_data.py b/egs2/ms_indic_18/asr1/local/prepare_data.py
index 464a1f43b11..d51f817b481 100755
--- a/egs2/ms_indic_18/asr1/local/prepare_data.py
+++ b/egs2/ms_indic_18/asr1/local/prepare_data.py
@@ -8,8 +8,8 @@
 import os
 import random
 import sys
-import librosa
 
+import librosa
 
 if len(sys.argv) != 3:
     print("Usage: python prepare_data.py [data-directory] [language-ID]")
diff --git a/egs2/open_li52/asr1/local/filter_text.py b/egs2/open_li52/asr1/local/filter_text.py
index db35c1754da..c5b000ce4c0 100755
--- a/egs2/open_li52/asr1/local/filter_text.py
+++ b/egs2/open_li52/asr1/local/filter_text.py
@@ -6,9 +6,8 @@
 
 import argparse
 import codecs
-from io import open
 import sys
-
+from io import open
 
 PY2 = sys.version_info[0] == 2
 sys.stdin = codecs.getreader("utf-8")(sys.stdin if PY2 else sys.stdin.buffer)
diff --git a/egs2/primewords_chinese/asr1/local/data_prep.py b/egs2/primewords_chinese/asr1/local/data_prep.py
index 11258bc597f..0c666eb96ac 100644
--- a/egs2/primewords_chinese/asr1/local/data_prep.py
+++ b/egs2/primewords_chinese/asr1/local/data_prep.py
@@ -3,13 +3,12 @@
 # Copyright 2021 Carnegie Mellon University (Yifan Peng)
 # Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
 
-import os
-import os.path
-import json
+import argparse
 import glob
+import json
 import math
-import argparse
-
+import os
+import os.path
 
 parser = argparse.ArgumentParser(description="Prepare Primewords_Chinese")
 parser.add_argument(
diff --git a/egs2/seame/asr1/local/preprocess.py b/egs2/seame/asr1/local/preprocess.py
index eb0ccfac47b..51a1e341c61 100755
--- a/egs2/seame/asr1/local/preprocess.py
+++ b/egs2/seame/asr1/local/preprocess.py
@@ -18,13 +18,13 @@
     [3] https://github.com/zengzp0912/SEAME-dev-set
 """
 
-import re
-import os
-import sys
 import argparse
-import itertools
 import collections
+import itertools
+import os
 import random as rd
+import re
+import sys
 
 rd.seed(531)
 
diff --git a/egs2/seame/asr1/local/split_lang_trn.py b/egs2/seame/asr1/local/split_lang_trn.py
index 1cff8674a73..72521cf2fad 100755
--- a/egs2/seame/asr1/local/split_lang_trn.py
+++ b/egs2/seame/asr1/local/split_lang_trn.py
@@ -1,17 +1,16 @@
 #!/usr/bin/env python3
 # -*- encoding: utf8 -*-
 
-import os
 import argparse
+import os
 
 from preprocess import (
-    remove_redundant_whitespaces,
     extract_mandarin_only,
     extract_non_mandarin,
     insert_space_between_mandarin,
+    remove_redundant_whitespaces,
 )
 
-
 if __name__ == "__main__":
     # Parse arguments
     parser = argparse.ArgumentParser()
diff --git a/egs2/sinhala/asr1/local/data_prep.py b/egs2/sinhala/asr1/local/data_prep.py
index ba218d62260..4bdbd737b33 100644
--- a/egs2/sinhala/asr1/local/data_prep.py
+++ b/egs2/sinhala/asr1/local/data_prep.py
@@ -8,13 +8,11 @@
 import os
 import re
 import sys
-import pandas as pd
-from tqdm import tqdm
-import pandas as pd
-import os
+
 import numpy as np
+import pandas as pd
 from sklearn.model_selection import train_test_split
-
+from tqdm import tqdm
 
 if len(sys.argv) != 2:
     print("Usage: python data_prep.py [SINHALA]")
diff --git a/egs2/slue-voxceleb/asr1/local/data_prep_slue.py b/egs2/slue-voxceleb/asr1/local/data_prep_slue.py
index 89b42059e30..43e0428806a 100644
--- a/egs2/slue-voxceleb/asr1/local/data_prep_slue.py
+++ b/egs2/slue-voxceleb/asr1/local/data_prep_slue.py
@@ -8,6 +8,7 @@
 import os
 import re
 import sys
+
 import pandas as pd
 
 if len(sys.argv) != 2:
diff --git a/egs2/slue-voxceleb/asr1/local/f1_score.py b/egs2/slue-voxceleb/asr1/local/f1_score.py
index 4f45752a812..4b71566da27 100755
--- a/egs2/slue-voxceleb/asr1/local/f1_score.py
+++ b/egs2/slue-voxceleb/asr1/local/f1_score.py
@@ -5,13 +5,13 @@
 # Apache 2.0
 
 
+import argparse
 import os
 import re
 import sys
+
 import pandas as pd
-import argparse
-from sklearn.metrics import f1_score
-from sklearn.metrics import classification_report
+from sklearn.metrics import classification_report, f1_score
 
 
 def get_classification_result(hyp_file, ref_file):
diff --git a/egs2/slue-voxceleb/asr1/local/generate_asr_files.py b/egs2/slue-voxceleb/asr1/local/generate_asr_files.py
index dd8a4645410..4e990b5cda4 100644
--- a/egs2/slue-voxceleb/asr1/local/generate_asr_files.py
+++ b/egs2/slue-voxceleb/asr1/local/generate_asr_files.py
@@ -5,11 +5,12 @@
 # Apache 2.0
 
 
+import argparse
 import os
 import re
 import sys
+
 import pandas as pd
-import argparse
 
 
 def generate_asr_files(txt_file, transcript_file):
diff --git a/egs2/slue-voxpopuli/asr1/local/data_prep_original_slue_format.py b/egs2/slue-voxpopuli/asr1/local/data_prep_original_slue_format.py
index 005da336b83..32a20ff548b 100644
--- a/egs2/slue-voxpopuli/asr1/local/data_prep_original_slue_format.py
+++ b/egs2/slue-voxpopuli/asr1/local/data_prep_original_slue_format.py
@@ -1,10 +1,11 @@
 #!/usr/bin/env python3
 
 import os
-import pandas as pd
 import re
 import sys
 
+import pandas as pd
+
 if len(sys.argv) != 2:
     print("Usage: python data_prep.py [root]")
     sys.exit(1)
diff --git a/egs2/slue-voxpopuli/asr1/local/data_prep_original_slue_format_transcript.py b/egs2/slue-voxpopuli/asr1/local/data_prep_original_slue_format_transcript.py
index 622c830e4cf..515e477a00c 100644
--- a/egs2/slue-voxpopuli/asr1/local/data_prep_original_slue_format_transcript.py
+++ b/egs2/slue-voxpopuli/asr1/local/data_prep_original_slue_format_transcript.py
@@ -1,10 +1,11 @@
 #!/usr/bin/env python3
 
 import os
-import pandas as pd
 import re
 import sys
 
+import pandas as pd
+
 if len(sys.argv) != 2:
     print("Usage: python data_prep.py [root]")
     sys.exit(1)
diff --git a/egs2/slue-voxpopuli/asr1/local/eval_utils.py b/egs2/slue-voxpopuli/asr1/local/eval_utils.py
index 9310735eb56..eaebc2881f4 100644
--- a/egs2/slue-voxpopuli/asr1/local/eval_utils.py
+++ b/egs2/slue-voxpopuli/asr1/local/eval_utils.py
@@ -1,7 +1,8 @@
-from typing import List
 from collections import defaultdict
-import numpy as np
+from typing import List
+
 import editdistance
+import numpy as np
 
 
 def get_ner_scores(all_gt, all_predictions):
diff --git a/egs2/slue-voxpopuli/asr1/local/score.py b/egs2/slue-voxpopuli/asr1/local/score.py
index 4239ed2b151..4663833c58f 100755
--- a/egs2/slue-voxpopuli/asr1/local/score.py
+++ b/egs2/slue-voxpopuli/asr1/local/score.py
@@ -4,14 +4,14 @@
 #           2021  Carnegie Mellon University
 # Apache 2.0
 
+import argparse
 import json
 import os
 import re
 import sys
-import pandas as pd
-import argparse
 
 import eval_utils
+import pandas as pd
 
 ontonotes_to_combined_label = {
     "GPE": "PLACE",
diff --git a/egs2/slurp/asr1/conf/train_asr_streaming_transformer.yaml b/egs2/slurp/asr1/conf/train_asr_streaming_transformer.yaml
new file mode 100644
index 00000000000..939e8d9bdd8
--- /dev/null
+++ b/egs2/slurp/asr1/conf/train_asr_streaming_transformer.yaml
@@ -0,0 +1,69 @@
+# network architecture
+# encoder related
+encoder: contextual_block_transformer
+encoder_conf:
+    output_size: 512    # dimension of attention
+    attention_heads: 8
+    linear_units: 2048  # the number of units of position-wise feed forward
+    num_blocks: 12      # the number of encoder blocks
+    dropout_rate: 0.1
+    positional_dropout_rate: 0.1
+    attention_dropout_rate: 0.1
+    input_layer: conv2d # encoder architecture type
+    normalize_before: true
+    block_size: 40
+    hop_size: 16
+    look_ahead: 16
+    init_average: true
+    ctx_pos_enc: true
+
+# decoder related
+decoder: transformer
+decoder_conf:
+    attention_heads: 8
+    linear_units: 2048
+    num_blocks: 6
+    dropout_rate: 0.1
+    positional_dropout_rate: 0.1
+    self_attention_dropout_rate: 0.1
+    src_attention_dropout_rate: 0.1
+
+# hybrid CTC/attention
+model_conf:
+    ctc_weight: 0.5
+    lsm_weight: 0.1     # label smoothing option
+    length_normalized_loss: false
+    extract_feats_in_collect_stats: false
+
+# minibatch related
+batch_type: folded
+batch_size: 64
+max_epoch: 50
+best_model_criterion:
+-   - valid
+    - acc
+    - max
+keep_nbest_models: 10
+
+optim: adam
+optim_conf:
+    lr: 0.0002
+scheduler: warmuplr     # pytorch v1.1.0+ required
+scheduler_conf:
+    warmup_steps: 25000
+num_att_plot: 0
+specaug: specaug
+specaug_conf:
+    apply_time_warp: true
+    time_warp_window: 5
+    time_warp_mode: bicubic
+    apply_freq_mask: true
+    freq_mask_width_range:
+    - 0
+    - 30
+    num_freq_mask: 2
+    apply_time_mask: true
+    time_mask_width_range:
+    - 0
+    - 40
+    num_time_mask: 2
diff --git a/egs2/slurp/asr1/local/prepare_slurp_data.py b/egs2/slurp/asr1/local/prepare_slurp_data.py
index 1120d03f9a5..d7dfb1d2674 100644
--- a/egs2/slurp/asr1/local/prepare_slurp_data.py
+++ b/egs2/slurp/asr1/local/prepare_slurp_data.py
@@ -5,9 +5,9 @@
 
 import json
 import os
-import sys
-import subprocess
 import re
+import subprocess
+import sys
 
 idir = sys.argv[1]
 
diff --git a/egs2/slurp_entity/asr1/local/convert_to_entity_file.py b/egs2/slurp_entity/asr1/local/convert_to_entity_file.py
index e37898f1ae9..9d65c79c5e0 100644
--- a/egs2/slurp_entity/asr1/local/convert_to_entity_file.py
+++ b/egs2/slurp_entity/asr1/local/convert_to_entity_file.py
@@ -1,7 +1,7 @@
-import json
-import sys
 import argparse
+import json
 import os
+import sys
 
 
 def generate_entity_file(line_arr, output_file="result_test.json"):
diff --git a/egs2/slurp_entity/asr1/local/evaluation/evaluate.py b/egs2/slurp_entity/asr1/local/evaluation/evaluate.py
index 908fb2d77c0..bd6b2e468da 100755
--- a/egs2/slurp_entity/asr1/local/evaluation/evaluate.py
+++ b/egs2/slurp_entity/asr1/local/evaluation/evaluate.py
@@ -1,10 +1,9 @@
 import argparse
 import logging
 
-from progress.bar import Bar
-
 from metrics import ErrorMetric
-from util import format_results, load_predictions, load_gold_data
+from progress.bar import Bar
+from util import format_results, load_gold_data, load_predictions
 
 logging.basicConfig(
     format="%(asctime)s - %(levelname)s - %(name)s -   %(message)s",
diff --git a/egs2/slurp_entity/asr1/local/evaluation/metrics/__init__.py b/egs2/slurp_entity/asr1/local/evaluation/metrics/__init__.py
index 80b25690873..6148e4fdd55 100755
--- a/egs2/slurp_entity/asr1/local/evaluation/metrics/__init__.py
+++ b/egs2/slurp_entity/asr1/local/evaluation/metrics/__init__.py
@@ -1,3 +1,2 @@
 from .distance import Distance
-from .metrics import ErrorMetric
-from .metrics import compute_metrics
+from .metrics import ErrorMetric, compute_metrics
diff --git a/egs2/slurp_entity/asr1/local/evaluation/metrics/distance.py b/egs2/slurp_entity/asr1/local/evaluation/metrics/distance.py
index 18928317486..3451a96bd9b 100755
--- a/egs2/slurp_entity/asr1/local/evaluation/metrics/distance.py
+++ b/egs2/slurp_entity/asr1/local/evaluation/metrics/distance.py
@@ -1,5 +1,6 @@
-from jiwer import wer
 from typing import List, Union
+
+from jiwer import wer
 from textdistance.algorithms.edit_based import levenshtein
 
 DISTANCE_OPTIONS = {"word", "char"}
diff --git a/egs2/slurp_entity/asr1/local/evaluation/util.py b/egs2/slurp_entity/asr1/local/evaluation/util.py
index c5c2b3560d5..a818d476caf 100755
--- a/egs2/slurp_entity/asr1/local/evaluation/util.py
+++ b/egs2/slurp_entity/asr1/local/evaluation/util.py
@@ -1,10 +1,9 @@
 import json
 import logging
 import os
-import tabulate
-
-from typing import Dict, Any, Tuple
+from typing import Any, Dict, Tuple
 
+import tabulate
 from progress.bar import Bar
 
 logging.basicConfig(
diff --git a/egs2/slurp_entity/asr1/local/prepare_slurp_data.py b/egs2/slurp_entity/asr1/local/prepare_slurp_data.py
index 1120d03f9a5..d7dfb1d2674 100644
--- a/egs2/slurp_entity/asr1/local/prepare_slurp_data.py
+++ b/egs2/slurp_entity/asr1/local/prepare_slurp_data.py
@@ -5,9 +5,9 @@
 
 import json
 import os
-import sys
-import subprocess
 import re
+import subprocess
+import sys
 
 idir = sys.argv[1]
 
diff --git a/egs2/slurp_entity/asr1/local/prepare_slurp_entity_data.py b/egs2/slurp_entity/asr1/local/prepare_slurp_entity_data.py
index 358d947ced9..220a7cfc042 100644
--- a/egs2/slurp_entity/asr1/local/prepare_slurp_entity_data.py
+++ b/egs2/slurp_entity/asr1/local/prepare_slurp_entity_data.py
@@ -5,9 +5,9 @@
 
 import json
 import os
-import sys
-import subprocess
 import re
+import subprocess
+import sys
 
 idir = sys.argv[1]
 
diff --git a/egs2/snips/asr1/local/data_prep.py b/egs2/snips/asr1/local/data_prep.py
index 79cd5e2b420..1c83ac5e749 100644
--- a/egs2/snips/asr1/local/data_prep.py
+++ b/egs2/snips/asr1/local/data_prep.py
@@ -2,8 +2,8 @@
 
 # Copyright 2021  Yuekai Zhang
 
-import json
 import argparse
+import json
 
 parser = argparse.ArgumentParser(description="Process snips dataset.")
 parser.add_argument("--wav_path", type=str, help="file path for audios")
diff --git a/egs2/speechcommands/asr1/local/data_prep_12.py b/egs2/speechcommands/asr1/local/data_prep_12.py
index b61bf6ac0f8..0fa1cdffa37 100644
--- a/egs2/speechcommands/asr1/local/data_prep_12.py
+++ b/egs2/speechcommands/asr1/local/data_prep_12.py
@@ -8,15 +8,15 @@
 # https://www.tensorflow.org/datasets/catalog/speech_commands
 
 
-import os
-import os.path
+import argparse
 import csv
 import glob
-import argparse
+import os
+import os.path
+
 import numpy as np
 from scipy.io import wavfile
 
-
 parser = argparse.ArgumentParser(description="Process speech commands dataset.")
 parser.add_argument(
     "--data_path",
diff --git a/egs2/speechcommands/asr1/local/data_prep_35.py b/egs2/speechcommands/asr1/local/data_prep_35.py
index 6b88e026a46..147c1c76c7e 100644
--- a/egs2/speechcommands/asr1/local/data_prep_35.py
+++ b/egs2/speechcommands/asr1/local/data_prep_35.py
@@ -6,11 +6,11 @@
 # Speech Commands Dataset: https://arxiv.org/abs/1804.03209
 
 
+import argparse
 import os
 import os.path
-import argparse
-import numpy as np
 
+import numpy as np
 
 parser = argparse.ArgumentParser(
     description="Process speech commands dataset with 35 commands."
diff --git a/egs2/speechcommands/asr1/local/score.py b/egs2/speechcommands/asr1/local/score.py
index b1c79a976c9..9ba1b759cdc 100644
--- a/egs2/speechcommands/asr1/local/score.py
+++ b/egs2/speechcommands/asr1/local/score.py
@@ -2,9 +2,9 @@
 
 # Copyright 2021 Carnegie Mellon University (Yifan Peng)
 
+import argparse
 import os
 import os.path
-import argparse
 
 parser = argparse.ArgumentParser(description="Calculate classification accuracy.")
 parser.add_argument("--wer_dir", type=str, help="folder containing hyp.trn and ref.trn")
diff --git a/egs2/su_openslr36/asr1/local/sunda_data_prep.py b/egs2/su_openslr36/asr1/local/sunda_data_prep.py
index f2196874b91..02c1c0d43c9 100644
--- a/egs2/su_openslr36/asr1/local/sunda_data_prep.py
+++ b/egs2/su_openslr36/asr1/local/sunda_data_prep.py
@@ -8,7 +8,6 @@
 import os
 import random
 
-
 if __name__ == "__main__":
     parser = argparse.ArgumentParser()
     parser.add_argument("-d", help="downloads directory", type=str, default="downloads")
diff --git a/egs2/swbd_sentiment/asr1/local/prepare_sentiment.py b/egs2/swbd_sentiment/asr1/local/prepare_sentiment.py
index 8921fa4272d..e76ce12fc5f 100755
--- a/egs2/swbd_sentiment/asr1/local/prepare_sentiment.py
+++ b/egs2/swbd_sentiment/asr1/local/prepare_sentiment.py
@@ -1,7 +1,7 @@
-import os
-import re
 import argparse
 import math
+import os
+import re
 
 
 def float2str(number, size=6):
diff --git a/egs2/swbd_sentiment/asr1/local/score_f1.py b/egs2/swbd_sentiment/asr1/local/score_f1.py
index a36c37c7b1f..6408b70d8a3 100755
--- a/egs2/swbd_sentiment/asr1/local/score_f1.py
+++ b/egs2/swbd_sentiment/asr1/local/score_f1.py
@@ -5,11 +5,12 @@
 # Apache 2.0
 
 
+import argparse
 import os
 import re
 import sys
+
 import pandas as pd
-import argparse
 from sklearn.metrics import f1_score
 
 
diff --git a/egs2/totonac/asr1/local/data_prep.py b/egs2/totonac/asr1/local/data_prep.py
index e3f76e03c0a..6edc792e651 100644
--- a/egs2/totonac/asr1/local/data_prep.py
+++ b/egs2/totonac/asr1/local/data_prep.py
@@ -1,12 +1,13 @@
-from argparse import ArgumentParser
 import os
 import re
 import shutil
-import soundfile as sf
 import string
 import sys
+from argparse import ArgumentParser
 from xml.dom.minidom import parse
 
+import soundfile as sf
+
 s = "".join(chr(c) for c in range(sys.maxunicode + 1))
 ws = "".join(re.findall(r"\s", s))
 outtab = " " * len(ws)
diff --git a/egs2/wenetspeech/asr1/local/extract_meta.py b/egs2/wenetspeech/asr1/local/extract_meta.py
index 30fa8803406..6074162038b 100755
--- a/egs2/wenetspeech/asr1/local/extract_meta.py
+++ b/egs2/wenetspeech/asr1/local/extract_meta.py
@@ -13,10 +13,10 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
-import sys
-import os
 import argparse
 import json
+import os
+import sys
 
 
 def get_args():
diff --git a/egs2/wenetspeech/asr1/local/process_opus.py b/egs2/wenetspeech/asr1/local/process_opus.py
index 7d6a6af8d1a..044d183b93f 100755
--- a/egs2/wenetspeech/asr1/local/process_opus.py
+++ b/egs2/wenetspeech/asr1/local/process_opus.py
@@ -16,9 +16,10 @@
 
 # usage: python3 process_opus.py wav.scp segments output_wav.scp
 
-from pydub import AudioSegment
-import sys
 import os
+import sys
+
+from pydub import AudioSegment
 
 
 def read_file(wav_scp, segments):
diff --git a/egs2/wsj0_2mix/enh1/README.md b/egs2/wsj0_2mix/enh1/README.md
index 38feb6ed3a7..a952cacec80 100644
--- a/egs2/wsj0_2mix/enh1/README.md
+++ b/egs2/wsj0_2mix/enh1/README.md
@@ -75,6 +75,65 @@
 <!-- Generated by ./scripts/utils/show_enh_score.sh -->
 # RESULTS
 ## Environments
+- date: `Thu Feb 24 16:26:21 CST 2022`
+- python version: `3.8.10 (default, May 19 2021, 18:05:58)  [GCC 7.3.0]`
+- espnet version: `espnet 0.10.7a1`
+- pytorch version: `pytorch 1.5.1+cu101`
+- Git hash: `c58adabbe1b83dcd0b616ecd336b4a0648334e2c`
+  - Commit date: `Wed Feb 16 14:20:38 2022 +0800`
+
+
+## enh_train_enh_dpcl_raw
+
+  - config: conf/tuning/train_enh_dpcl.yaml
+  - Pretrained model: https://huggingface.co/Yulinfeng/wsj0_2mix_enh_train_enh_dpcl_raw_valid.si_snr.ave
+
+|dataset|PESQ|STOI|SAR|SDR|SIR|SI_SNR|
+|---|---|---|---|---|---|---|
+|enhanced_cv_min_8k|2.18|0.84|9.63|8.59|17.31|8.04|
+|enhanced_tt_min_8k|2.15|0.84|9.51|8.45|17.22|7.91|
+
+<!-- Generated by ./scripts/utils/show_enh_score.sh -->
+# RESULTS
+## Environments
+- date: `Thu Mar  3 17:10:03 CST 2022`
+- python version: `3.8.10 (default, May 19 2021, 18:05:58)  [GCC 7.3.0]`
+- espnet version: `espnet 0.10.7a1`
+- pytorch version: `pytorch 1.5.1+cu101`
+- Git hash: `ec1acec03d109f06d829b80862e0388f7234d0d1`
+  - Commit date: `Fri Feb 25 14:12:45 2022 +0800`
+
+
+## enh_train_enh_mdc_raw
+
+  - config: conf/tuning/train_enh_mdc.yaml
+  - Pretrained model: https://huggingface.co/Yulinfeng/wsj0_2mix_enh_train_enh_mdc_raw_valid.si_snr.ave
+
+|dataset|PESQ|STOI|SAR|SDR|SIR|SI_SNR|
+|---|---|---|---|---|---|---|
+|enhanced_cv_min_8k|2.20|0.84|9.62|8.57|17.27|8.03|
+|enhanced_tt_min_8k|2.18|0.85|9.56|8.50|17.28|7.97|
+
+<!-- Generated by ./scripts/utils/show_enh_score.sh -->
+# RESULTS
+## Environments
+- date: `Thu Mar  3 14:33:32 CST 2022`
+- python version: `3.8.10 (default, May 19 2021, 18:05:58)  [GCC 7.3.0]`
+- espnet version: `espnet 0.10.7a1`
+- pytorch version: `pytorch 1.5.1+cu101`
+- Git hash: `ec1acec03d109f06d829b80862e0388f7234d0d1`
+  - Commit date: `Fri Feb 25 14:12:45 2022 +0800`
+
+
+## enh_train_enh_dan_tf_raw
+
+  - config: conf/tuning/train_enh_dan_tf.yaml
+  - Pretrained model: https://huggingface.co/Yulinfeng/wsj0_2mix_enh_train_enh_dan_tf_raw_valid.si_snr.ave
+
+|dataset|PESQ|STOI|SAR|SDR|SIR|SI_SNR|
+|---|---|---|---|---|---|---|
+|enhanced_cv_min_8k|2.68|0.88|12.28|11.01|18.03|10.48|
+|enhanced_tt_min_8k|2.68|0.89|12.10|10.84|17.98|10.30|
 - date: `Thu Mar  3 14:29:20 CST 2022`
 - python version: `3.8.12 (default, Oct 12 2021, 13:49:34)  [GCC 7.5.0]`
 - espnet version: `espnet 0.10.7a1`
diff --git a/egs2/wsj0_2mix/enh1/conf/tuning/train_enh_dan_tf.yaml b/egs2/wsj0_2mix/enh1/conf/tuning/train_enh_dan_tf.yaml
new file mode 100644
index 00000000000..d1995a99894
--- /dev/null
+++ b/egs2/wsj0_2mix/enh1/conf/tuning/train_enh_dan_tf.yaml
@@ -0,0 +1,65 @@
+optim: adam
+init: xavier_uniform
+max_epoch: 100
+batch_type: folded
+batch_size: 8
+iterator_type: chunk
+chunk_length: 32000
+num_workers: 4
+optim_conf:
+    lr: 1.0e-04
+    eps: 1.0e-08
+    weight_decay: 1.0e-7
+patience: 10
+val_scheduler_criterion:
+- valid
+- loss
+best_model_criterion:
+-   - valid
+    - si_snr
+    - max
+-   - valid
+    - loss
+    - min
+keep_nbest_models: 1
+scheduler: reducelronplateau
+scheduler_conf:
+    mode: min
+    factor: 0.7
+    patience: 1
+
+# A list for criterions
+# The overlall loss in the multi-task learning will be:
+# loss = weight_1 * loss_1 + ... + weight_N * loss_N
+# The default `weight` for each sub-loss is 1.0
+criterions: 
+  # The first criterion
+  - name: mse
+    conf:
+      compute_on_mask: False
+      mask_type: PSM
+    # the wrapper for the current criterion
+    # PIT is widely used in the speech separation task
+    wrapper: pit
+    wrapper_conf:
+      weight: 1.0
+
+encoder: stft
+encoder_conf:
+    n_fft: 256
+    hop_length: 64
+decoder: stft
+decoder_conf:
+    n_fft: 256
+    hop_length: 64
+separator: dan
+separator_conf:
+    rnn_type: blstm
+    num_spk: 2
+    nonlinear: tanh
+    layer: 4
+    unit: 600
+    dropout: 0.1
+    emb_D: 20
+
+
diff --git a/egs2/wsj0_2mix/enh1/conf/tuning/train_enh_dpcl.yaml b/egs2/wsj0_2mix/enh1/conf/tuning/train_enh_dpcl.yaml
new file mode 100644
index 00000000000..58a06679107
--- /dev/null
+++ b/egs2/wsj0_2mix/enh1/conf/tuning/train_enh_dpcl.yaml
@@ -0,0 +1,62 @@
+optim: adam
+init: xavier_uniform
+max_epoch: 100
+batch_type: folded
+batch_size:  8
+num_workers: 4
+optim_conf:
+    lr: 1.0e-03
+    eps: 1.0e-08
+    weight_decay: 1.0e-7
+patience: 10
+val_scheduler_criterion:
+- valid
+- loss
+best_model_criterion:
+-   - valid
+    - si_snr
+    - max
+-   - valid
+    - loss
+    - min
+keep_nbest_models: 1
+scheduler: reducelronplateau
+scheduler_conf:
+    mode: min
+    factor: 0.7
+    patience: 1
+
+# A list for criterions
+# The overlall loss in the multi-task learning will be:
+# loss = weight_1 * loss_1 + ... + weight_N * loss_N
+# The default `weight` for each sub-loss is 1.0
+criterions: 
+  # The first criterion
+  - name: dpcl
+    conf:
+      loss_type: dpcl # "dpcl" or "mdc", "dpcl" means the origin loss in Deep Clustering and "mdc" means Manifold-Aware Deep Clustering
+    # the wrapper for the current criterion
+    # PIT is widely used in the speech separation task
+    wrapper: dpcl
+    wrapper_conf:
+      weight: 1.0
+
+encoder: stft
+encoder_conf:
+    n_fft: 256
+    hop_length: 128
+decoder: stft
+decoder_conf:
+    n_fft: 256
+    hop_length: 128
+separator: dpcl
+separator_conf:
+    rnn_type: blstm
+    num_spk: 2
+    nonlinear: relu
+    layer: 2
+    unit: 500
+    dropout: 0.1
+    emb_D: 40
+
+
diff --git a/egs2/wsj0_2mix/enh1/conf/tuning/train_enh_dpcl_e2e.yaml b/egs2/wsj0_2mix/enh1/conf/tuning/train_enh_dpcl_e2e.yaml
new file mode 100644
index 00000000000..aba37266183
--- /dev/null
+++ b/egs2/wsj0_2mix/enh1/conf/tuning/train_enh_dpcl_e2e.yaml
@@ -0,0 +1,66 @@
+optim: adam
+init: xavier_uniform
+max_epoch: 100
+batch_type: folded
+batch_size:  8
+num_workers: 4
+optim_conf:
+    lr: 1.0e-03
+    eps: 1.0e-08
+    weight_decay: 1.0e-7
+patience: 10
+val_scheduler_criterion:
+- valid
+- loss
+best_model_criterion:
+-   - valid
+    - si_snr
+    - max
+-   - valid
+    - loss
+    - min
+keep_nbest_models: 1
+scheduler: reducelronplateau
+scheduler_conf:
+    mode: min
+    factor: 0.7
+    patience: 1
+
+# A list for criterions
+# The overlall loss in the multi-task learning will be:
+# loss = weight_1 * loss_1 + ... + weight_N * loss_N
+# The default `weight` for each sub-loss is 1.0
+criterions: 
+  # The first criterion
+  - name: mse
+    conf:
+      compute_on_mask: False
+      mask_type: PSM
+    # the wrapper for the current criterion
+    # PIT is widely used in the speech separation task
+    wrapper: pit
+    wrapper_conf:
+      weight: 1.0
+
+encoder: stft
+encoder_conf:
+    n_fft: 256
+    hop_length: 128
+decoder: stft
+decoder_conf:
+    n_fft: 256
+    hop_length: 128
+separator: dpcl_e2e
+separator_conf:
+    rnn_type: blstm
+    num_spk: 2
+    nonlinear: relu
+    layer: 2
+    unit: 500
+    dropout: 0.1
+    emb_D: 40
+    alpha: 5.0
+    max_iteration: 100
+    threshold: 1.0e-05
+
+
diff --git a/egs2/wsj0_2mix/enh1/conf/tuning/train_enh_mdc.yaml b/egs2/wsj0_2mix/enh1/conf/tuning/train_enh_mdc.yaml
new file mode 100644
index 00000000000..c093aca6944
--- /dev/null
+++ b/egs2/wsj0_2mix/enh1/conf/tuning/train_enh_mdc.yaml
@@ -0,0 +1,62 @@
+optim: adam
+init: xavier_uniform
+max_epoch: 100
+batch_type: folded
+batch_size:  8
+num_workers: 4
+optim_conf:
+    lr: 1.0e-03
+    eps: 1.0e-08
+    weight_decay: 1.0e-7
+patience: 10
+val_scheduler_criterion:
+- valid
+- loss
+best_model_criterion:
+-   - valid
+    - si_snr
+    - max
+-   - valid
+    - loss
+    - min
+keep_nbest_models: 1
+scheduler: reducelronplateau
+scheduler_conf:
+    mode: min
+    factor: 0.7
+    patience: 1
+
+# A list for criterions
+# The overlall loss in the multi-task learning will be:
+# loss = weight_1 * loss_1 + ... + weight_N * loss_N
+# The default `weight` for each sub-loss is 1.0
+criterions: 
+  # The first criterion
+  - name: dpcl
+    conf:
+      loss_type: mdc # "dpcl" or "mdc", "dpcl" means the origin loss in Deep Clustering and "mdc" means Manifold-Aware Deep Clustering
+    # the wrapper for the current criterion
+    # PIT is widely used in the speech separation task
+    wrapper: dpcl
+    wrapper_conf:
+      weight: 1.0
+
+encoder: stft
+encoder_conf:
+    n_fft: 256
+    hop_length: 128
+decoder: stft
+decoder_conf:
+    n_fft: 256
+    hop_length: 128
+separator: dpcl
+separator_conf:
+    rnn_type: blstm
+    num_spk: 2
+    nonlinear: relu
+    layer: 2
+    unit: 500
+    dropout: 0.1
+    emb_D: 40
+
+
diff --git a/egs2/yoloxochitl_mixtec/asr1/local/filter_text.py b/egs2/yoloxochitl_mixtec/asr1/local/filter_text.py
index 162d09eeb68..c79c6d3032c 100755
--- a/egs2/yoloxochitl_mixtec/asr1/local/filter_text.py
+++ b/egs2/yoloxochitl_mixtec/asr1/local/filter_text.py
@@ -5,9 +5,8 @@
 
 import argparse
 import codecs
-from io import open
 import sys
-
+from io import open
 
 sys.stdin = codecs.getreader("utf-8")(sys.stdin.buffer)
 sys.stdout = codecs.getwriter("utf-8")(sys.stdout.buffer)
diff --git a/egs2/zh_openslr38/asr1/local/data_split.py b/egs2/zh_openslr38/asr1/local/data_split.py
index df952d304cd..9200424b314 100644
--- a/egs2/zh_openslr38/asr1/local/data_split.py
+++ b/egs2/zh_openslr38/asr1/local/data_split.py
@@ -1,10 +1,10 @@
 """
 Split data to train, dev, test
 """
-import sys
 import os
-from collections import defaultdict
 import random
+import sys
+from collections import defaultdict
 
 train_size = 0.9
 random.seed(1)
diff --git a/espnet/asr/asr_utils.py b/espnet/asr/asr_utils.py
index e8c7387ae4b..ea61f646102 100644
--- a/espnet/asr/asr_utils.py
+++ b/espnet/asr/asr_utils.py
@@ -12,7 +12,6 @@
 import numpy as np
 import torch
 
-
 # * -------------------- training iterator related -------------------- *
 
 
diff --git a/espnet/asr/chainer_backend/asr.py b/espnet/asr/chainer_backend/asr.py
index 976d920bfbd..f5470b66899 100644
--- a/espnet/asr/chainer_backend/asr.py
+++ b/espnet/asr/chainer_backend/asr.py
@@ -6,40 +6,40 @@
 import json
 import logging
 import os
-import six
 
 # chainer related
 import chainer
-
+import six
 from chainer import training
-
 from chainer.datasets import TransformDataset
 from chainer.training import extensions
 
+# rnnlm
+import espnet.lm.chainer_backend.extlm as extlm_chainer
+import espnet.lm.chainer_backend.lm as lm_chainer
+
 # espnet related
-from espnet.asr.asr_utils import adadelta_eps_decay
-from espnet.asr.asr_utils import add_results_to_json
-from espnet.asr.asr_utils import chainer_load
-from espnet.asr.asr_utils import CompareValueTrigger
-from espnet.asr.asr_utils import get_model_conf
-from espnet.asr.asr_utils import restore_snapshot
+from espnet.asr.asr_utils import (
+    CompareValueTrigger,
+    adadelta_eps_decay,
+    add_results_to_json,
+    chainer_load,
+    get_model_conf,
+    restore_snapshot,
+)
 from espnet.nets.asr_interface import ASRInterface
 from espnet.utils.deterministic_utils import set_deterministic_chainer
 from espnet.utils.dynamic_import import dynamic_import
 from espnet.utils.io_utils import LoadInputsAndTargets
 from espnet.utils.training.batchfy import make_batchset
 from espnet.utils.training.evaluator import BaseEvaluator
-from espnet.utils.training.iterators import ShufflingEnabler
-from espnet.utils.training.iterators import ToggleableShufflingMultiprocessIterator
-from espnet.utils.training.iterators import ToggleableShufflingSerialIterator
-from espnet.utils.training.train_utils import check_early_stop
-from espnet.utils.training.train_utils import set_early_stop
-
-# rnnlm
-import espnet.lm.chainer_backend.extlm as extlm_chainer
-import espnet.lm.chainer_backend.lm as lm_chainer
-
+from espnet.utils.training.iterators import (
+    ShufflingEnabler,
+    ToggleableShufflingMultiprocessIterator,
+    ToggleableShufflingSerialIterator,
+)
 from espnet.utils.training.tensorboard_logger import TensorboardLogger
+from espnet.utils.training.train_utils import check_early_stop, set_early_stop
 
 
 def train(args):
diff --git a/espnet/asr/pytorch_backend/asr.py b/espnet/asr/pytorch_backend/asr.py
index d487380bd3f..daf30de3517 100644
--- a/espnet/asr/pytorch_backend/asr.py
+++ b/espnet/asr/pytorch_backend/asr.py
@@ -4,47 +4,50 @@
 """Training/decoding definition for the speech recognition task."""
 
 import copy
-from distutils.version import LooseVersion
 import itertools
 import json
 import logging
 import math
 import os
 
+import numpy as np
+import torch
 from chainer import reporter as reporter_module
 from chainer import training
 from chainer.training import extensions
 from chainer.training.updater import StandardUpdater
-import numpy as np
-import torch
+from packaging.version import parse as V
 from torch.nn.parallel import data_parallel
 
-from espnet.asr.asr_utils import adadelta_eps_decay
-from espnet.asr.asr_utils import add_results_to_json
-from espnet.asr.asr_utils import CompareValueTrigger
-from espnet.asr.asr_utils import format_mulenc_args
-from espnet.asr.asr_utils import get_model_conf
-from espnet.asr.asr_utils import plot_spectrogram
-from espnet.asr.asr_utils import restore_snapshot
-from espnet.asr.asr_utils import snapshot_object
-from espnet.asr.asr_utils import torch_load
-from espnet.asr.asr_utils import torch_resume
-from espnet.asr.asr_utils import torch_snapshot
-from espnet.asr.pytorch_backend.asr_init import freeze_modules
-from espnet.asr.pytorch_backend.asr_init import load_trained_model
-from espnet.asr.pytorch_backend.asr_init import load_trained_modules
 import espnet.lm.pytorch_backend.extlm as extlm_pytorch
+import espnet.nets.pytorch_backend.lm.default as lm_pytorch
+from espnet.asr.asr_utils import (
+    CompareValueTrigger,
+    adadelta_eps_decay,
+    add_results_to_json,
+    format_mulenc_args,
+    get_model_conf,
+    plot_spectrogram,
+    restore_snapshot,
+    snapshot_object,
+    torch_load,
+    torch_resume,
+    torch_snapshot,
+)
+from espnet.asr.pytorch_backend.asr_init import (
+    freeze_modules,
+    load_trained_model,
+    load_trained_modules,
+)
 from espnet.nets.asr_interface import ASRInterface
 from espnet.nets.beam_search_transducer import BeamSearchTransducer
 from espnet.nets.pytorch_backend.e2e_asr import pad_list
-import espnet.nets.pytorch_backend.lm.default as lm_pytorch
 from espnet.nets.pytorch_backend.streaming.segment import SegmentStreamingE2E
 from espnet.nets.pytorch_backend.streaming.window import WindowStreamingE2E
 from espnet.transform.spectrogram import IStft
 from espnet.transform.transformation import Transformation
 from espnet.utils.cli_writers import file_writer_helper
-from espnet.utils.dataset import ChainerDataLoader
-from espnet.utils.dataset import TransformDataset
+from espnet.utils.dataset import ChainerDataLoader, TransformDataset
 from espnet.utils.deterministic_utils import set_deterministic_pytorch
 from espnet.utils.dynamic_import import dynamic_import
 from espnet.utils.io_utils import LoadInputsAndTargets
@@ -52,8 +55,7 @@
 from espnet.utils.training.evaluator import BaseEvaluator
 from espnet.utils.training.iterators import ShufflingEnabler
 from espnet.utils.training.tensorboard_logger import TensorboardLogger
-from espnet.utils.training.train_utils import check_early_stop
-from espnet.utils.training.train_utils import set_early_stop
+from espnet.utils.training.train_utils import check_early_stop, set_early_stop
 
 
 def _recursive_to(xs, device):
@@ -989,7 +991,7 @@ def recog(args):
         # It seems quantized LSTM only supports non-packed sequence before torch 1.4.0.
         # Reference issue: https://github.com/pytorch/pytorch/issues/27963
         if (
-            torch.__version__ < LooseVersion("1.4.0")
+            V(torch.__version__) < V("1.4.0")
             and "lstm" in train_args.etype
             and torch.nn.LSTM in q_config
         ):
@@ -999,9 +1001,7 @@ def recog(args):
 
         # Dunno why but weight_observer from dynamic quantized module must have
         # dtype=torch.qint8 with torch < 1.5 although dtype=torch.float16 is supported.
-        if args.quantize_dtype == "float16" and torch.__version__ < LooseVersion(
-            "1.5.0"
-        ):
+        if args.quantize_dtype == "float16" and V(torch.__version__) < V("1.5.0"):
             raise ValueError(
                 "float16 dtype for dynamic quantization is not supported with torch "
                 "version < 1.5.0. Switching to qint8 dtype instead."
diff --git a/espnet/asr/pytorch_backend/asr_init.py b/espnet/asr/pytorch_backend/asr_init.py
index 51bca5b7808..0a124ea437c 100644
--- a/espnet/asr/pytorch_backend/asr_init.py
+++ b/espnet/asr/pytorch_backend/asr_init.py
@@ -1,13 +1,13 @@
 """Finetuning methods."""
 
-from collections import OrderedDict
 import logging
 import os
 import re
+from collections import OrderedDict
+
 import torch
 
-from espnet.asr.asr_utils import get_model_conf
-from espnet.asr.asr_utils import torch_load
+from espnet.asr.asr_utils import get_model_conf, torch_load
 from espnet.nets.asr_interface import ASRInterface
 from espnet.nets.mt_interface import MTInterface
 from espnet.nets.pytorch_backend.transducer.utils import custom_torch_load
diff --git a/espnet/asr/pytorch_backend/asr_mix.py b/espnet/asr/pytorch_backend/asr_mix.py
index 53208f16f8e..7d866d3845b 100644
--- a/espnet/asr/pytorch_backend/asr_mix.py
+++ b/espnet/asr/pytorch_backend/asr_mix.py
@@ -9,41 +9,43 @@
 import json
 import logging
 import os
+from itertools import zip_longest as zip_longest
+
+import numpy as np
+import torch
 
 # chainer related
 from chainer import training
 from chainer.training import extensions
-from itertools import zip_longest as zip_longest
-import numpy as np
-import torch
 
-from espnet.asr.asr_mix_utils import add_results_to_json
-from espnet.asr.asr_utils import adadelta_eps_decay
-
-from espnet.asr.asr_utils import CompareValueTrigger
-from espnet.asr.asr_utils import get_model_conf
-from espnet.asr.asr_utils import restore_snapshot
-from espnet.asr.asr_utils import snapshot_object
-from espnet.asr.asr_utils import torch_load
-from espnet.asr.asr_utils import torch_resume
-from espnet.asr.asr_utils import torch_snapshot
-from espnet.asr.pytorch_backend.asr import CustomEvaluator
-from espnet.asr.pytorch_backend.asr import CustomUpdater
-from espnet.asr.pytorch_backend.asr import load_trained_model
 import espnet.lm.pytorch_backend.extlm as extlm_pytorch
+import espnet.nets.pytorch_backend.lm.default as lm_pytorch
+from espnet.asr.asr_mix_utils import add_results_to_json
+from espnet.asr.asr_utils import (
+    CompareValueTrigger,
+    adadelta_eps_decay,
+    get_model_conf,
+    restore_snapshot,
+    snapshot_object,
+    torch_load,
+    torch_resume,
+    torch_snapshot,
+)
+from espnet.asr.pytorch_backend.asr import (
+    CustomEvaluator,
+    CustomUpdater,
+    load_trained_model,
+)
 from espnet.nets.asr_interface import ASRInterface
 from espnet.nets.pytorch_backend.e2e_asr_mix import pad_list
-import espnet.nets.pytorch_backend.lm.default as lm_pytorch
-from espnet.utils.dataset import ChainerDataLoader
-from espnet.utils.dataset import TransformDataset
+from espnet.utils.dataset import ChainerDataLoader, TransformDataset
 from espnet.utils.deterministic_utils import set_deterministic_pytorch
 from espnet.utils.dynamic_import import dynamic_import
 from espnet.utils.io_utils import LoadInputsAndTargets
 from espnet.utils.training.batchfy import make_batchset
 from espnet.utils.training.iterators import ShufflingEnabler
 from espnet.utils.training.tensorboard_logger import TensorboardLogger
-from espnet.utils.training.train_utils import check_early_stop
-from espnet.utils.training.train_utils import set_early_stop
+from espnet.utils.training.train_utils import check_early_stop, set_early_stop
 
 
 class CustomConverter(object):
diff --git a/espnet/asr/pytorch_backend/recog.py b/espnet/asr/pytorch_backend/recog.py
index 6c6d4ce1194..0302f7eeacc 100644
--- a/espnet/asr/pytorch_backend/recog.py
+++ b/espnet/asr/pytorch_backend/recog.py
@@ -1,14 +1,12 @@
 """V2 backend for `asr_recog.py` using py:class:`espnet.nets.beam_search.BeamSearch`."""
 
-from distutils.version import LooseVersion
 import json
 import logging
 
 import torch
+from packaging.version import parse as V
 
-from espnet.asr.asr_utils import add_results_to_json
-from espnet.asr.asr_utils import get_model_conf
-from espnet.asr.asr_utils import torch_load
+from espnet.asr.asr_utils import add_results_to_json, get_model_conf, torch_load
 from espnet.asr.pytorch_backend.asr import load_trained_model
 from espnet.nets.asr_interface import ASRInterface
 from espnet.nets.batch_beam_search import BatchBeamSearch
@@ -54,7 +52,7 @@ def recog_v2(args):
 
         # See https://github.com/espnet/espnet/pull/3616 for more information.
         if (
-            torch.__version__ < LooseVersion("1.4.0")
+            V(torch.__version__) < V("1.4.0")
             and "lstm" in train_args.etype
             and torch.nn.LSTM in q_config
         ):
@@ -62,9 +60,7 @@ def recog_v2(args):
                 "Quantized LSTM in ESPnet is only supported with torch 1.4+."
             )
 
-        if args.quantize_dtype == "float16" and torch.__version__ < LooseVersion(
-            "1.5.0"
-        ):
+        if args.quantize_dtype == "float16" and V(torch.__version__) < V("1.5.0"):
             raise ValueError(
                 "float16 dtype for dynamic quantization is not supported with torch "
                 "version < 1.5.0. Switching to qint8 dtype instead."
@@ -101,8 +97,7 @@ def recog_v2(args):
         lm = None
 
     if args.ngram_model:
-        from espnet.nets.scorers.ngram import NgramFullScorer
-        from espnet.nets.scorers.ngram import NgramPartScorer
+        from espnet.nets.scorers.ngram import NgramFullScorer, NgramPartScorer
 
         if args.ngram_scorer == "full":
             ngram = NgramFullScorer(args.ngram_model, train_args.char_list)
diff --git a/espnet/bin/asr_align.py b/espnet/bin/asr_align.py
index e1ba35ffaee..693562dd46b 100755
--- a/espnet/bin/asr_align.py
+++ b/espnet/bin/asr_align.py
@@ -41,23 +41,26 @@
         with the option `--gratis-blank`.
 """
 
-import configargparse
+import json
 import logging
 import os
 import sys
 
+import configargparse
+import torch
+
+# imports for CTC segmentation
+from ctc_segmentation import (
+    CtcSegmentationParameters,
+    ctc_segmentation,
+    determine_utterance_segments,
+    prepare_text,
+)
+
 # imports for inference
 from espnet.asr.pytorch_backend.asr_init import load_trained_model
 from espnet.nets.asr_interface import ASRInterface
 from espnet.utils.io_utils import LoadInputsAndTargets
-import json
-import torch
-
-# imports for CTC segmentation
-from ctc_segmentation import ctc_segmentation
-from ctc_segmentation import CtcSegmentationParameters
-from ctc_segmentation import determine_utterance_segments
-from ctc_segmentation import prepare_text
 
 
 # NOTE: you need this func to generate our sphinx doc
diff --git a/espnet/bin/asr_enhance.py b/espnet/bin/asr_enhance.py
index 98f0d693caa..2cc33ac4c01 100755
--- a/espnet/bin/asr_enhance.py
+++ b/espnet/bin/asr_enhance.py
@@ -1,11 +1,11 @@
 #!/usr/bin/env python3
-import configargparse
-from distutils.util import strtobool
 import logging
 import os
 import random
 import sys
+from distutils.util import strtobool
 
+import configargparse
 import numpy as np
 
 from espnet.asr.pytorch_backend.asr import enhance
diff --git a/espnet/bin/asr_recog.py b/espnet/bin/asr_recog.py
index 3275ecf2243..d641ef4b822 100755
--- a/espnet/bin/asr_recog.py
+++ b/espnet/bin/asr_recog.py
@@ -6,12 +6,12 @@
 
 """End-to-end speech recognition model decoding script."""
 
-import configargparse
 import logging
 import os
 import random
 import sys
 
+import configargparse
 import numpy as np
 
 from espnet.utils.cli_utils import strtobool
diff --git a/espnet/bin/mt_trans.py b/espnet/bin/mt_trans.py
index c229f16d79f..7aa74ea62ba 100755
--- a/espnet/bin/mt_trans.py
+++ b/espnet/bin/mt_trans.py
@@ -6,12 +6,12 @@
 
 """Neural machine translation model decoding script."""
 
-import configargparse
 import logging
 import os
 import random
 import sys
 
+import configargparse
 import numpy as np
 
 
diff --git a/espnet/bin/tts_decode.py b/espnet/bin/tts_decode.py
index 71e53439c57..5ddc6ff0b30 100755
--- a/espnet/bin/tts_decode.py
+++ b/espnet/bin/tts_decode.py
@@ -5,12 +5,13 @@
 
 """TTS decoding script."""
 
-import configargparse
 import logging
 import os
 import subprocess
 import sys
 
+import configargparse
+
 from espnet.utils.cli_utils import strtobool
 
 
diff --git a/espnet/bin/vc_decode.py b/espnet/bin/vc_decode.py
index 1802b76769f..319dde112ac 100755
--- a/espnet/bin/vc_decode.py
+++ b/espnet/bin/vc_decode.py
@@ -5,12 +5,13 @@
 
 """VC decoding script."""
 
-import configargparse
 import logging
 import os
 import subprocess
 import sys
 
+import configargparse
+
 from espnet.utils.cli_utils import strtobool
 
 
diff --git a/espnet/lm/chainer_backend/extlm.py b/espnet/lm/chainer_backend/extlm.py
index 711e878c1d8..84051a69544 100644
--- a/espnet/lm/chainer_backend/extlm.py
+++ b/espnet/lm/chainer_backend/extlm.py
@@ -8,6 +8,7 @@
 
 import chainer
 import chainer.functions as F
+
 from espnet.lm.lm_utils import make_lexical_tree
 
 
diff --git a/espnet/lm/chainer_backend/lm.py b/espnet/lm/chainer_backend/lm.py
index 3cfcd6fd2d5..1d5d763b7db 100644
--- a/espnet/lm/chainer_backend/lm.py
+++ b/espnet/lm/chainer_backend/lm.py
@@ -10,40 +10,36 @@
 import copy
 import json
 import logging
-import numpy as np
-import six
 
 import chainer
-from chainer.dataset import convert
 import chainer.functions as F
 import chainer.links as L
+import numpy as np
+import six
+from chainer import link, reporter, training
+from chainer.dataset import convert
 
 # for classifier link
 from chainer.functions.loss import softmax_cross_entropy
-from chainer import link
-from chainer import reporter
-from chainer import training
 from chainer.training import extensions
 
-from espnet.lm.lm_utils import compute_perplexity
-from espnet.lm.lm_utils import count_tokens
-from espnet.lm.lm_utils import MakeSymlinkToBestModel
-from espnet.lm.lm_utils import ParallelSentenceIterator
-from espnet.lm.lm_utils import read_tokens
-
 import espnet.nets.chainer_backend.deterministic_embed_id as DL
+from espnet.lm.lm_utils import (
+    MakeSymlinkToBestModel,
+    ParallelSentenceIterator,
+    compute_perplexity,
+    count_tokens,
+    read_tokens,
+)
 from espnet.nets.lm_interface import LMInterface
 from espnet.optimizer.factory import dynamic_import_optimizer
 from espnet.scheduler.chainer import ChainerScheduler
 from espnet.scheduler.scheduler import dynamic_import_scheduler
-
-from espnet.utils.training.tensorboard_logger import TensorboardLogger
-
 from espnet.utils.deterministic_utils import set_deterministic_chainer
 from espnet.utils.training.evaluator import BaseEvaluator
 from espnet.utils.training.iterators import ShufflingEnabler
-from espnet.utils.training.train_utils import check_early_stop
-from espnet.utils.training.train_utils import set_early_stop
+from espnet.utils.training.tensorboard_logger import TensorboardLogger
+from espnet.utils.training.train_utils import check_early_stop, set_early_stop
 
 
 # TODO(karita): reimplement RNNLM with new interface
diff --git a/espnet/lm/lm_utils.py b/espnet/lm/lm_utils.py
index bb43e5de0e7..273aeabead9 100644
--- a/espnet/lm/lm_utils.py
+++ b/espnet/lm/lm_utils.py
@@ -6,16 +6,16 @@
 # This code is ported from the following implementation written in Torch.
 # https://github.com/chainer/chainer/blob/master/examples/ptb/train_ptb_custom_loop.py
 
-import chainer
-import h5py
 import logging
-import numpy as np
 import os
 import random
-import six
-from tqdm import tqdm
 
+import chainer
+import h5py
+import numpy as np
+import six
 from chainer.training import extension
+from tqdm import tqdm
 
 
 def load_dataset(path, label_dict, outdir=None):
diff --git a/espnet/lm/pytorch_backend/lm.py b/espnet/lm/pytorch_backend/lm.py
index 2b4efe529f7..7d5ca98c932 100644
--- a/espnet/lm/pytorch_backend/lm.py
+++ b/espnet/lm/pytorch_backend/lm.py
@@ -9,41 +9,37 @@
 import copy
 import json
 import logging
-import numpy as np
 
+import numpy as np
 import torch
 import torch.nn as nn
-from torch.nn.parallel import data_parallel
-
-from chainer import Chain
+from chainer import Chain, reporter, training
 from chainer.dataset import convert
-from chainer import reporter
-from chainer import training
 from chainer.training import extensions
+from torch.nn.parallel import data_parallel
 
-from espnet.lm.lm_utils import count_tokens
-from espnet.lm.lm_utils import load_dataset
-from espnet.lm.lm_utils import MakeSymlinkToBestModel
-from espnet.lm.lm_utils import ParallelSentenceIterator
-from espnet.lm.lm_utils import read_tokens
-from espnet.nets.lm_interface import dynamic_import_lm
-from espnet.nets.lm_interface import LMInterface
+from espnet.asr.asr_utils import (
+    snapshot_object,
+    torch_load,
+    torch_resume,
+    torch_snapshot,
+)
+from espnet.lm.lm_utils import (
+    MakeSymlinkToBestModel,
+    ParallelSentenceIterator,
+    count_tokens,
+    load_dataset,
+    read_tokens,
+)
+from espnet.nets.lm_interface import LMInterface, dynamic_import_lm
 from espnet.optimizer.factory import dynamic_import_optimizer
 from espnet.scheduler.pytorch import PyTorchScheduler
 from espnet.scheduler.scheduler import dynamic_import_scheduler
-
-from espnet.asr.asr_utils import snapshot_object
-from espnet.asr.asr_utils import torch_load
-from espnet.asr.asr_utils import torch_resume
-from espnet.asr.asr_utils import torch_snapshot
-
-from espnet.utils.training.tensorboard_logger import TensorboardLogger
-
 from espnet.utils.deterministic_utils import set_deterministic_pytorch
 from espnet.utils.training.evaluator import BaseEvaluator
 from espnet.utils.training.iterators import ShufflingEnabler
-from espnet.utils.training.train_utils import check_early_stop
-from espnet.utils.training.train_utils import set_early_stop
+from espnet.utils.training.tensorboard_logger import TensorboardLogger
+from espnet.utils.training.train_utils import check_early_stop, set_early_stop
 
 
 def compute_perplexity(result):
diff --git a/espnet/mt/pytorch_backend/mt.py b/espnet/mt/pytorch_backend/mt.py
index 47f5b817b03..0a2db000e68 100644
--- a/espnet/mt/pytorch_backend/mt.py
+++ b/espnet/mt/pytorch_backend/mt.py
@@ -11,36 +11,37 @@
 import logging
 import os
 
-from chainer import training
-from chainer.training import extensions
 import numpy as np
 import torch
+from chainer import training
+from chainer.training import extensions
 
-from espnet.asr.asr_utils import adadelta_eps_decay
-from espnet.asr.asr_utils import adam_lr_decay
-from espnet.asr.asr_utils import add_results_to_json
-from espnet.asr.asr_utils import CompareValueTrigger
-from espnet.asr.asr_utils import restore_snapshot
-from espnet.asr.asr_utils import snapshot_object
-from espnet.asr.asr_utils import torch_load
-from espnet.asr.asr_utils import torch_resume
-from espnet.asr.asr_utils import torch_snapshot
+from espnet.asr.asr_utils import (
+    CompareValueTrigger,
+    adadelta_eps_decay,
+    adam_lr_decay,
+    add_results_to_json,
+    restore_snapshot,
+    snapshot_object,
+    torch_load,
+    torch_resume,
+    torch_snapshot,
+)
+from espnet.asr.pytorch_backend.asr import (
+    CustomEvaluator,
+    CustomUpdater,
+    load_trained_model,
+)
 from espnet.nets.mt_interface import MTInterface
 from espnet.nets.pytorch_backend.e2e_asr import pad_list
-from espnet.utils.dataset import ChainerDataLoader
-from espnet.utils.dataset import TransformDataset
+from espnet.utils.dataset import ChainerDataLoader, TransformDataset
 from espnet.utils.deterministic_utils import set_deterministic_pytorch
 from espnet.utils.dynamic_import import dynamic_import
 from espnet.utils.io_utils import LoadInputsAndTargets
 from espnet.utils.training.batchfy import make_batchset
 from espnet.utils.training.iterators import ShufflingEnabler
 from espnet.utils.training.tensorboard_logger import TensorboardLogger
-from espnet.utils.training.train_utils import check_early_stop
-from espnet.utils.training.train_utils import set_early_stop
-
-from espnet.asr.pytorch_backend.asr import CustomEvaluator
-from espnet.asr.pytorch_backend.asr import CustomUpdater
-from espnet.asr.pytorch_backend.asr import load_trained_model
+from espnet.utils.training.train_utils import check_early_stop, set_early_stop
 
 
 class CustomConverter(object):
diff --git a/espnet/nets/batch_beam_search.py b/espnet/nets/batch_beam_search.py
index 9418fadea46..f31d876a934 100644
--- a/espnet/nets/batch_beam_search.py
+++ b/espnet/nets/batch_beam_search.py
@@ -1,17 +1,12 @@
 """Parallel beam search module."""
 
 import logging
-from typing import Any
-from typing import Dict
-from typing import List
-from typing import NamedTuple
-from typing import Tuple
+from typing import Any, Dict, List, NamedTuple, Tuple
 
 import torch
 from torch.nn.utils.rnn import pad_sequence
 
-from espnet.nets.beam_search import BeamSearch
-from espnet.nets.beam_search import Hypothesis
+from espnet.nets.beam_search import BeamSearch, Hypothesis
 
 
 class BatchHypothesis(NamedTuple):
diff --git a/espnet/nets/batch_beam_search_online.py b/espnet/nets/batch_beam_search_online.py
index 9190a09144a..cdb23dd9e89 100644
--- a/espnet/nets/batch_beam_search_online.py
+++ b/espnet/nets/batch_beam_search_online.py
@@ -1,19 +1,17 @@
 """Parallel beam search module for online simulation."""
 
-from espnet.nets.batch_beam_search import (
-    BatchBeamSearch,  # noqa: H301
-    BatchHypothesis,  # noqa: H301
-)
-from espnet.nets.beam_search import Hypothesis
-from espnet.nets.e2e_asr_common import end_detect
 import logging
+from typing import Any  # noqa: H301
+from typing import Dict  # noqa: H301
+from typing import List  # noqa: H301
+from typing import Tuple  # noqa: H301
+
 import torch
-from typing import (
-    List,  # noqa: H301
-    Tuple,  # noqa: H301
-    Dict,  # noqa: H301
-    Any,  # noqa: H301
-)
+
+from espnet.nets.batch_beam_search import BatchBeamSearch  # noqa: H301
+from espnet.nets.batch_beam_search import BatchHypothesis  # noqa: H301
+from espnet.nets.beam_search import Hypothesis
+from espnet.nets.e2e_asr_common import end_detect
 
 
 class BatchBeamSearchOnline(BatchBeamSearch):
diff --git a/espnet/nets/batch_beam_search_online_sim.py b/espnet/nets/batch_beam_search_online_sim.py
index 2c0ecf3bfb1..f65e7e1025b 100644
--- a/espnet/nets/batch_beam_search_online_sim.py
+++ b/espnet/nets/batch_beam_search_online_sim.py
@@ -4,9 +4,8 @@
 from pathlib import Path
 from typing import List
 
-import yaml
-
 import torch
+import yaml
 
 from espnet.nets.batch_beam_search import BatchBeamSearch
 from espnet.nets.beam_search import Hypothesis
diff --git a/espnet/nets/beam_search.py b/espnet/nets/beam_search.py
index 0f33d8c63bf..40e02cabc82 100644
--- a/espnet/nets/beam_search.py
+++ b/espnet/nets/beam_search.py
@@ -1,19 +1,13 @@
 """Beam search module."""
 
-from itertools import chain
 import logging
-from typing import Any
-from typing import Dict
-from typing import List
-from typing import NamedTuple
-from typing import Tuple
-from typing import Union
+from itertools import chain
+from typing import Any, Dict, List, NamedTuple, Tuple, Union
 
 import torch
 
 from espnet.nets.e2e_asr_common import end_detect
-from espnet.nets.scorer_interface import PartialScorerInterface
-from espnet.nets.scorer_interface import ScorerInterface
+from espnet.nets.scorer_interface import PartialScorerInterface, ScorerInterface
 
 
 class Hypothesis(NamedTuple):
diff --git a/espnet/nets/beam_search_transducer.py b/espnet/nets/beam_search_transducer.py
index a14dcd8618a..16ae27030ca 100644
--- a/espnet/nets/beam_search_transducer.py
+++ b/espnet/nets/beam_search_transducer.py
@@ -1,8 +1,7 @@
 """Search algorithms for Transducer models."""
 
 import logging
-from typing import List
-from typing import Union
+from typing import List, Union
 
 import numpy as np
 import torch
@@ -10,15 +9,16 @@
 from espnet.nets.pytorch_backend.transducer.custom_decoder import CustomDecoder
 from espnet.nets.pytorch_backend.transducer.joint_network import JointNetwork
 from espnet.nets.pytorch_backend.transducer.rnn_decoder import RNNDecoder
-from espnet.nets.pytorch_backend.transducer.utils import create_lm_batch_states
-from espnet.nets.pytorch_backend.transducer.utils import init_lm_state
-from espnet.nets.pytorch_backend.transducer.utils import is_prefix
-from espnet.nets.pytorch_backend.transducer.utils import recombine_hyps
-from espnet.nets.pytorch_backend.transducer.utils import select_k_expansions
-from espnet.nets.pytorch_backend.transducer.utils import select_lm_state
-from espnet.nets.pytorch_backend.transducer.utils import subtract
-from espnet.nets.transducer_decoder_interface import ExtendedHypothesis
-from espnet.nets.transducer_decoder_interface import Hypothesis
+from espnet.nets.pytorch_backend.transducer.utils import (
+    create_lm_batch_states,
+    init_lm_state,
+    is_prefix,
+    recombine_hyps,
+    select_k_expansions,
+    select_lm_state,
+    subtract,
+)
+from espnet.nets.transducer_decoder_interface import ExtendedHypothesis, Hypothesis
 
 
 class BeamSearchTransducer:
diff --git a/espnet/nets/chainer_backend/ctc.py b/espnet/nets/chainer_backend/ctc.py
index f1788df4c74..878f90d8834 100644
--- a/espnet/nets/chainer_backend/ctc.py
+++ b/espnet/nets/chainer_backend/ctc.py
@@ -1,10 +1,10 @@
 import logging
 
 import chainer
-from chainer import cuda
 import chainer.functions as F
 import chainer.links as L
 import numpy as np
+from chainer import cuda
 
 
 class CTC(chainer.Chain):
diff --git a/espnet/nets/chainer_backend/deterministic_embed_id.py b/espnet/nets/chainer_backend/deterministic_embed_id.py
index 22bc3e3b3ae..09a69cd29fd 100644
--- a/espnet/nets/chainer_backend/deterministic_embed_id.py
+++ b/espnet/nets/chainer_backend/deterministic_embed_id.py
@@ -1,15 +1,11 @@
+import chainer
 import numpy
 import six
 
-import chainer
-from chainer import cuda
-from chainer import function_node
-from chainer.initializers import normal
-
 # from chainer.functions.connection import embed_id
-from chainer import link
+from chainer import cuda, function_node, link, variable
+from chainer.initializers import normal
 from chainer.utils import type_check
-from chainer import variable
 
 """Deterministic EmbedID link and function
 
diff --git a/espnet/nets/chainer_backend/e2e_asr.py b/espnet/nets/chainer_backend/e2e_asr.py
index eb3a9a37f98..2c9244e5c39 100644
--- a/espnet/nets/chainer_backend/e2e_asr.py
+++ b/espnet/nets/chainer_backend/e2e_asr.py
@@ -7,8 +7,8 @@
 import math
 
 import chainer
-from chainer import reporter
 import numpy as np
+from chainer import reporter
 
 from espnet.nets.chainer_backend.asr_interface import ChainerASRInterface
 from espnet.nets.chainer_backend.ctc import ctc_for
diff --git a/espnet/nets/chainer_backend/e2e_asr_transformer.py b/espnet/nets/chainer_backend/e2e_asr_transformer.py
index 07c63d23697..33f786dfc2f 100644
--- a/espnet/nets/chainer_backend/e2e_asr_transformer.py
+++ b/espnet/nets/chainer_backend/e2e_asr_transformer.py
@@ -1,37 +1,35 @@
 # encoding: utf-8
 """Transformer-based model for End-to-end ASR."""
 
-from argparse import Namespace
-from distutils.util import strtobool
 import logging
 import math
+from argparse import Namespace
+from distutils.util import strtobool
 
 import chainer
 import chainer.functions as F
-from chainer import reporter
 import numpy as np
 import six
+from chainer import reporter
 
 from espnet.nets.chainer_backend.asr_interface import ChainerASRInterface
-from espnet.nets.chainer_backend.transformer.attention import MultiHeadAttention
 from espnet.nets.chainer_backend.transformer import ctc
+from espnet.nets.chainer_backend.transformer.attention import MultiHeadAttention
 from espnet.nets.chainer_backend.transformer.decoder import Decoder
 from espnet.nets.chainer_backend.transformer.encoder import Encoder
-from espnet.nets.chainer_backend.transformer.label_smoothing_loss import (
-    LabelSmoothingLoss,  # noqa: H301
+from espnet.nets.chainer_backend.transformer.label_smoothing_loss import (  # noqa: H301
+    LabelSmoothingLoss,
 )
-from espnet.nets.chainer_backend.transformer.training import CustomConverter
-from espnet.nets.chainer_backend.transformer.training import CustomUpdater
-from espnet.nets.chainer_backend.transformer.training import (
-    CustomParallelUpdater,  # noqa: H301
+from espnet.nets.chainer_backend.transformer.training import (  # noqa: H301
+    CustomConverter,
+    CustomParallelUpdater,
+    CustomUpdater,
 )
 from espnet.nets.ctc_prefix_score import CTCPrefixScore
-from espnet.nets.e2e_asr_common import end_detect
-from espnet.nets.e2e_asr_common import ErrorCalculator
+from espnet.nets.e2e_asr_common import ErrorCalculator, end_detect
 from espnet.nets.pytorch_backend.nets_utils import get_subsample
 from espnet.nets.pytorch_backend.transformer.plot import PlotAttentionReport
 
-
 CTC_SCORING_RATIO = 1.5
 MAX_DECODER_OUTPUT = 5
 
diff --git a/espnet/nets/chainer_backend/rnn/attentions.py b/espnet/nets/chainer_backend/rnn/attentions.py
index e9a776e5b2e..c4343256ddc 100644
--- a/espnet/nets/chainer_backend/rnn/attentions.py
+++ b/espnet/nets/chainer_backend/rnn/attentions.py
@@ -1,7 +1,6 @@
 import chainer
 import chainer.functions as F
 import chainer.links as L
-
 import numpy as np
 
 
diff --git a/espnet/nets/chainer_backend/rnn/decoders.py b/espnet/nets/chainer_backend/rnn/decoders.py
index 308f509a8b3..5cba1266f40 100644
--- a/espnet/nets/chainer_backend/rnn/decoders.py
+++ b/espnet/nets/chainer_backend/rnn/decoders.py
@@ -1,16 +1,14 @@
 import logging
 import random
-import six
+from argparse import Namespace
 
 import chainer
 import chainer.functions as F
 import chainer.links as L
 import numpy as np
+import six
 
 import espnet.nets.chainer_backend.deterministic_embed_id as DL
-
-from argparse import Namespace
-
 from espnet.nets.ctc_prefix_score import CTCPrefixScore
 from espnet.nets.e2e_asr_common import end_detect
 
diff --git a/espnet/nets/chainer_backend/rnn/encoders.py b/espnet/nets/chainer_backend/rnn/encoders.py
index 0590ccf8108..aa064304e28 100644
--- a/espnet/nets/chainer_backend/rnn/encoders.py
+++ b/espnet/nets/chainer_backend/rnn/encoders.py
@@ -1,11 +1,10 @@
 import logging
-import six
 
 import chainer
 import chainer.functions as F
 import chainer.links as L
 import numpy as np
-
+import six
 from chainer import cuda
 
 from espnet.nets.chainer_backend.nets_utils import _subsamplex
diff --git a/espnet/nets/chainer_backend/rnn/training.py b/espnet/nets/chainer_backend/rnn/training.py
index bbc37d681a1..7b8af79cce6 100644
--- a/espnet/nets/chainer_backend/rnn/training.py
+++ b/espnet/nets/chainer_backend/rnn/training.py
@@ -5,18 +5,17 @@
 import collections
 import logging
 import math
+
+import numpy as np
 import six
 
 # chainer related
-from chainer import cuda
-from chainer import training
-from chainer import Variable
-
-from chainer.training.updaters.multiprocess_parallel_updater import gather_grads
-from chainer.training.updaters.multiprocess_parallel_updater import gather_params
-from chainer.training.updaters.multiprocess_parallel_updater import scatter_grads
-
-import numpy as np
+from chainer import Variable, cuda, training
+from chainer.training.updaters.multiprocess_parallel_updater import (
+    gather_grads,
+    gather_params,
+    scatter_grads,
+)
 
 
 # copied from https://github.com/chainer/chainer/blob/master/chainer/optimizer.py
diff --git a/espnet/nets/chainer_backend/transformer/attention.py b/espnet/nets/chainer_backend/transformer/attention.py
index d26d82fb10f..a79f844e288 100644
--- a/espnet/nets/chainer_backend/transformer/attention.py
+++ b/espnet/nets/chainer_backend/transformer/attention.py
@@ -2,10 +2,8 @@
 """Class Declaration of Transformer's Attention."""
 
 import chainer
-
 import chainer.functions as F
 import chainer.links as L
-
 import numpy as np
 
 MIN_VALUE = float(np.finfo(np.float32).min)
diff --git a/espnet/nets/chainer_backend/transformer/decoder.py b/espnet/nets/chainer_backend/transformer/decoder.py
index 75c3a7ef410..0b1bcdf25bc 100644
--- a/espnet/nets/chainer_backend/transformer/decoder.py
+++ b/espnet/nets/chainer_backend/transformer/decoder.py
@@ -2,17 +2,15 @@
 """Class Declaration of Transformer's Decoder."""
 
 import chainer
-
 import chainer.functions as F
 import chainer.links as L
+import numpy as np
 
 from espnet.nets.chainer_backend.transformer.decoder_layer import DecoderLayer
 from espnet.nets.chainer_backend.transformer.embedding import PositionalEncoding
 from espnet.nets.chainer_backend.transformer.layer_norm import LayerNorm
 from espnet.nets.chainer_backend.transformer.mask import make_history_mask
 
-import numpy as np
-
 
 class Decoder(chainer.Chain):
     """Decoder layer.
diff --git a/espnet/nets/chainer_backend/transformer/decoder_layer.py b/espnet/nets/chainer_backend/transformer/decoder_layer.py
index 933290049c2..ad2bf55bf99 100644
--- a/espnet/nets/chainer_backend/transformer/decoder_layer.py
+++ b/espnet/nets/chainer_backend/transformer/decoder_layer.py
@@ -2,13 +2,12 @@
 """Class Declaration of Transformer's Decoder Block."""
 
 import chainer
-
 import chainer.functions as F
 
 from espnet.nets.chainer_backend.transformer.attention import MultiHeadAttention
 from espnet.nets.chainer_backend.transformer.layer_norm import LayerNorm
 from espnet.nets.chainer_backend.transformer.positionwise_feed_forward import (
-    PositionwiseFeedForward,  # noqa: H301
+    PositionwiseFeedForward,
 )
 
 
diff --git a/espnet/nets/chainer_backend/transformer/embedding.py b/espnet/nets/chainer_backend/transformer/embedding.py
index d838c085dad..35d3b10b798 100644
--- a/espnet/nets/chainer_backend/transformer/embedding.py
+++ b/espnet/nets/chainer_backend/transformer/embedding.py
@@ -3,7 +3,6 @@
 
 import chainer
 import chainer.functions as F
-
 import numpy as np
 
 
diff --git a/espnet/nets/chainer_backend/transformer/encoder.py b/espnet/nets/chainer_backend/transformer/encoder.py
index c0a8e7e64e7..c51592217a0 100644
--- a/espnet/nets/chainer_backend/transformer/encoder.py
+++ b/espnet/nets/chainer_backend/transformer/encoder.py
@@ -1,19 +1,20 @@
 # encoding: utf-8
 """Class Declaration of Transformer's Encoder."""
 
-import chainer
+import logging
 
+import chainer
+import numpy as np
 from chainer import links as L
 
 from espnet.nets.chainer_backend.transformer.embedding import PositionalEncoding
 from espnet.nets.chainer_backend.transformer.encoder_layer import EncoderLayer
 from espnet.nets.chainer_backend.transformer.layer_norm import LayerNorm
 from espnet.nets.chainer_backend.transformer.mask import make_history_mask
-from espnet.nets.chainer_backend.transformer.subsampling import Conv2dSubsampling
-from espnet.nets.chainer_backend.transformer.subsampling import LinearSampling
-
-import logging
-import numpy as np
+from espnet.nets.chainer_backend.transformer.subsampling import (
+    Conv2dSubsampling,
+    LinearSampling,
+)
 
 
 class Encoder(chainer.Chain):
diff --git a/espnet/nets/chainer_backend/transformer/encoder_layer.py b/espnet/nets/chainer_backend/transformer/encoder_layer.py
index b742ef34ec3..73431d1139b 100644
--- a/espnet/nets/chainer_backend/transformer/encoder_layer.py
+++ b/espnet/nets/chainer_backend/transformer/encoder_layer.py
@@ -2,13 +2,12 @@
 """Class Declaration of Transformer's Encoder Block."""
 
 import chainer
-
 import chainer.functions as F
 
 from espnet.nets.chainer_backend.transformer.attention import MultiHeadAttention
 from espnet.nets.chainer_backend.transformer.layer_norm import LayerNorm
 from espnet.nets.chainer_backend.transformer.positionwise_feed_forward import (
-    PositionwiseFeedForward,  # noqa: H301
+    PositionwiseFeedForward,
 )
 
 
diff --git a/espnet/nets/chainer_backend/transformer/label_smoothing_loss.py b/espnet/nets/chainer_backend/transformer/label_smoothing_loss.py
index 5aebc58a625..c81d819e7eb 100644
--- a/espnet/nets/chainer_backend/transformer/label_smoothing_loss.py
+++ b/espnet/nets/chainer_backend/transformer/label_smoothing_loss.py
@@ -4,7 +4,6 @@
 import logging
 
 import chainer
-
 import chainer.functions as F
 
 
diff --git a/espnet/nets/chainer_backend/transformer/positionwise_feed_forward.py b/espnet/nets/chainer_backend/transformer/positionwise_feed_forward.py
index f6d5a7c1a46..f69fcc6cc76 100644
--- a/espnet/nets/chainer_backend/transformer/positionwise_feed_forward.py
+++ b/espnet/nets/chainer_backend/transformer/positionwise_feed_forward.py
@@ -2,10 +2,8 @@
 """Class Declaration of Transformer's Positionwise Feedforward."""
 
 import chainer
-
 import chainer.functions as F
 import chainer.links as L
-
 import numpy as np
 
 
diff --git a/espnet/nets/chainer_backend/transformer/subsampling.py b/espnet/nets/chainer_backend/transformer/subsampling.py
index 0ba486c871f..86cd3b2f5ae 100644
--- a/espnet/nets/chainer_backend/transformer/subsampling.py
+++ b/espnet/nets/chainer_backend/transformer/subsampling.py
@@ -1,16 +1,15 @@
 # encoding: utf-8
 """Class Declaration of Transformer's Input layers."""
 
-import chainer
+import logging
 
+import chainer
 import chainer.functions as F
 import chainer.links as L
+import numpy as np
 
 from espnet.nets.chainer_backend.transformer.embedding import PositionalEncoding
 
-import logging
-import numpy as np
-
 
 class Conv2dSubsampling(chainer.Chain):
     """Convolutional 2D subsampling (to 1/4 length).
diff --git a/espnet/nets/chainer_backend/transformer/training.py b/espnet/nets/chainer_backend/transformer/training.py
index e6a98651f36..0a46911757d 100644
--- a/espnet/nets/chainer_backend/transformer/training.py
+++ b/espnet/nets/chainer_backend/transformer/training.py
@@ -4,16 +4,18 @@
 import collections
 import logging
 import math
-import six
 
+import numpy as np
+import six
 from chainer import cuda
 from chainer import functions as F
 from chainer import training
 from chainer.training import extension
-from chainer.training.updaters.multiprocess_parallel_updater import gather_grads
-from chainer.training.updaters.multiprocess_parallel_updater import gather_params
-from chainer.training.updaters.multiprocess_parallel_updater import scatter_grads
-import numpy as np
+from chainer.training.updaters.multiprocess_parallel_updater import (
+    gather_grads,
+    gather_params,
+    scatter_grads,
+)
 
 
 # copied from https://github.com/chainer/chainer/blob/master/chainer/optimizer.py
diff --git a/espnet/nets/ctc_prefix_score.py b/espnet/nets/ctc_prefix_score.py
index 0c67ecd096d..9b4cf94ed18 100644
--- a/espnet/nets/ctc_prefix_score.py
+++ b/espnet/nets/ctc_prefix_score.py
@@ -3,10 +3,9 @@
 # Copyright 2018 Mitsubishi Electric Research Labs (Takaaki Hori)
 #  Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
 
-import torch
-
 import numpy as np
 import six
+import torch
 
 
 class CTCPrefixScoreTH(object):
diff --git a/espnet/nets/e2e_asr_common.py b/espnet/nets/e2e_asr_common.py
index 92f90796a3a..40483e4d5d1 100644
--- a/espnet/nets/e2e_asr_common.py
+++ b/espnet/nets/e2e_asr_common.py
@@ -9,8 +9,8 @@
 import json
 import logging
 import sys
-
 from itertools import groupby
+
 import numpy as np
 import six
 
diff --git a/espnet/nets/pytorch_backend/conformer/argument.py b/espnet/nets/pytorch_backend/conformer/argument.py
index d5681565256..03861e4f79a 100644
--- a/espnet/nets/pytorch_backend/conformer/argument.py
+++ b/espnet/nets/pytorch_backend/conformer/argument.py
@@ -4,8 +4,8 @@
 """Conformer common arguments."""
 
 
-from distutils.util import strtobool
 import logging
+from distutils.util import strtobool
 
 
 def add_arguments_conformer_common(group):
diff --git a/espnet/nets/pytorch_backend/conformer/contextual_block_encoder_layer.py b/espnet/nets/pytorch_backend/conformer/contextual_block_encoder_layer.py
index 6f02e5ef151..b4f0bd0933c 100644
--- a/espnet/nets/pytorch_backend/conformer/contextual_block_encoder_layer.py
+++ b/espnet/nets/pytorch_backend/conformer/contextual_block_encoder_layer.py
@@ -5,10 +5,11 @@
 @author: Keqi Deng (UCAS)
 """
 
-from espnet.nets.pytorch_backend.transformer.layer_norm import LayerNorm
 import torch
 from torch import nn
 
+from espnet.nets.pytorch_backend.transformer.layer_norm import LayerNorm
+
 
 class ContextualBlockEncoderLayer(nn.Module):
     """Contexutal Block Encoder layer module.
diff --git a/espnet/nets/pytorch_backend/conformer/encoder.py b/espnet/nets/pytorch_backend/conformer/encoder.py
index 515cf7e3f7c..a05dfba5a16 100644
--- a/espnet/nets/pytorch_backend/conformer/encoder.py
+++ b/espnet/nets/pytorch_backend/conformer/encoder.py
@@ -5,6 +5,7 @@
 """Encoder definition."""
 
 import logging
+
 import torch
 
 from espnet.nets.pytorch_backend.conformer.convolution import ConvolutionModule
@@ -12,21 +13,23 @@
 from espnet.nets.pytorch_backend.nets_utils import get_activation
 from espnet.nets.pytorch_backend.transducer.vgg2l import VGG2L
 from espnet.nets.pytorch_backend.transformer.attention import (
-    MultiHeadedAttention,  # noqa: H301
-    RelPositionMultiHeadedAttention,  # noqa: H301
-    LegacyRelPositionMultiHeadedAttention,  # noqa: H301
+    LegacyRelPositionMultiHeadedAttention,
+    MultiHeadedAttention,
+    RelPositionMultiHeadedAttention,
 )
 from espnet.nets.pytorch_backend.transformer.embedding import (
-    PositionalEncoding,  # noqa: H301
-    ScaledPositionalEncoding,  # noqa: H301
-    RelPositionalEncoding,  # noqa: H301
-    LegacyRelPositionalEncoding,  # noqa: H301
+    LegacyRelPositionalEncoding,
+    PositionalEncoding,
+    RelPositionalEncoding,
+    ScaledPositionalEncoding,
 )
 from espnet.nets.pytorch_backend.transformer.layer_norm import LayerNorm
-from espnet.nets.pytorch_backend.transformer.multi_layer_conv import Conv1dLinear
-from espnet.nets.pytorch_backend.transformer.multi_layer_conv import MultiLayeredConv1d
+from espnet.nets.pytorch_backend.transformer.multi_layer_conv import (
+    Conv1dLinear,
+    MultiLayeredConv1d,
+)
 from espnet.nets.pytorch_backend.transformer.positionwise_feed_forward import (
-    PositionwiseFeedForward,  # noqa: H301
+    PositionwiseFeedForward,
 )
 from espnet.nets.pytorch_backend.transformer.repeat import repeat
 from espnet.nets.pytorch_backend.transformer.subsampling import Conv2dSubsampling
diff --git a/espnet/nets/pytorch_backend/conformer/encoder_layer.py b/espnet/nets/pytorch_backend/conformer/encoder_layer.py
index bc620261aee..294ccb6c538 100644
--- a/espnet/nets/pytorch_backend/conformer/encoder_layer.py
+++ b/espnet/nets/pytorch_backend/conformer/encoder_layer.py
@@ -8,7 +8,6 @@
 """Encoder self-attention layer definition."""
 
 import torch
-
 from torch import nn
 
 from espnet.nets.pytorch_backend.transformer.layer_norm import LayerNorm
diff --git a/espnet/nets/pytorch_backend/ctc.py b/espnet/nets/pytorch_backend/ctc.py
index f834967f645..d9bcece8866 100644
--- a/espnet/nets/pytorch_backend/ctc.py
+++ b/espnet/nets/pytorch_backend/ctc.py
@@ -1,10 +1,10 @@
-from distutils.version import LooseVersion
 import logging
 
 import numpy as np
 import six
 import torch
 import torch.nn.functional as F
+from packaging.version import parse as V
 
 from espnet.nets.pytorch_backend.nets_utils import to_device
 
@@ -28,11 +28,7 @@ def __init__(self, odim, eprojs, dropout_rate, ctc_type="warpctc", reduce=True):
         self.probs = None  # for visualization
 
         # In case of Pytorch >= 1.7.0, CTC will be always builtin
-        self.ctc_type = (
-            ctc_type
-            if LooseVersion(torch.__version__) < LooseVersion("1.7.0")
-            else "builtin"
-        )
+        self.ctc_type = ctc_type if V(torch.__version__) < V("1.7.0") else "builtin"
 
         if ctc_type != self.ctc_type:
             logging.warning(f"CTC was set to {self.ctc_type} due to PyTorch version.")
diff --git a/espnet/nets/pytorch_backend/e2e_asr.py b/espnet/nets/pytorch_backend/e2e_asr.py
index 0008e84d4c4..2fa9aeb78ad 100644
--- a/espnet/nets/pytorch_backend/e2e_asr.py
+++ b/espnet/nets/pytorch_backend/e2e_asr.py
@@ -4,34 +4,38 @@
 """RNN sequence-to-sequence speech recognition model (pytorch)."""
 
 import argparse
-from itertools import groupby
 import logging
 import math
 import os
+from itertools import groupby
 
 import chainer
-from chainer import reporter
 import numpy as np
 import six
 import torch
+from chainer import reporter
 
 from espnet.nets.asr_interface import ASRInterface
 from espnet.nets.e2e_asr_common import label_smoothing_dist
 from espnet.nets.pytorch_backend.ctc import ctc_for
-from espnet.nets.pytorch_backend.frontends.feature_transform import (
-    feature_transform_for,  # noqa: H301
+from espnet.nets.pytorch_backend.frontends.feature_transform import (  # noqa: H301
+    feature_transform_for,
 )
 from espnet.nets.pytorch_backend.frontends.frontend import frontend_for
-from espnet.nets.pytorch_backend.initialization import lecun_normal_init_parameters
-from espnet.nets.pytorch_backend.initialization import set_forget_bias_to_one
-from espnet.nets.pytorch_backend.nets_utils import get_subsample
-from espnet.nets.pytorch_backend.nets_utils import pad_list
-from espnet.nets.pytorch_backend.nets_utils import to_device
-from espnet.nets.pytorch_backend.nets_utils import to_torch_tensor
-from espnet.nets.pytorch_backend.rnn.argument import (
-    add_arguments_rnn_encoder_common,  # noqa: H301
-    add_arguments_rnn_decoder_common,  # noqa: H301
-    add_arguments_rnn_attention_common,  # noqa: H301
+from espnet.nets.pytorch_backend.initialization import (
+    lecun_normal_init_parameters,
+    set_forget_bias_to_one,
+)
+from espnet.nets.pytorch_backend.nets_utils import (
+    get_subsample,
+    pad_list,
+    to_device,
+    to_torch_tensor,
+)
+from espnet.nets.pytorch_backend.rnn.argument import (  # noqa: H301
+    add_arguments_rnn_attention_common,
+    add_arguments_rnn_decoder_common,
+    add_arguments_rnn_encoder_common,
 )
 from espnet.nets.pytorch_backend.rnn.attentions import att_for
 from espnet.nets.pytorch_backend.rnn.decoders import decoder_for
diff --git a/espnet/nets/pytorch_backend/e2e_asr_conformer.py b/espnet/nets/pytorch_backend/e2e_asr_conformer.py
index 4bcbad139e8..f9bada5f324 100644
--- a/espnet/nets/pytorch_backend/e2e_asr_conformer.py
+++ b/espnet/nets/pytorch_backend/e2e_asr_conformer.py
@@ -10,12 +10,12 @@
 
 """
 
+from espnet.nets.pytorch_backend.conformer.argument import (  # noqa: H301
+    add_arguments_conformer_common,
+    verify_rel_pos_type,
+)
 from espnet.nets.pytorch_backend.conformer.encoder import Encoder
 from espnet.nets.pytorch_backend.e2e_asr_transformer import E2E as E2ETransformer
-from espnet.nets.pytorch_backend.conformer.argument import (
-    add_arguments_conformer_common,  # noqa: H301
-    verify_rel_pos_type,  # noqa: H301
-)
 
 
 class E2E(E2ETransformer):
diff --git a/espnet/nets/pytorch_backend/e2e_asr_maskctc.py b/espnet/nets/pytorch_backend/e2e_asr_maskctc.py
index 7e7f6c3312d..0551b1b870f 100644
--- a/espnet/nets/pytorch_backend/e2e_asr_maskctc.py
+++ b/espnet/nets/pytorch_backend/e2e_asr_maskctc.py
@@ -9,24 +9,23 @@
 
 """
 
-from itertools import groupby
 import logging
 import math
-
 from distutils.util import strtobool
+from itertools import groupby
+
 import numpy
 import torch
 
-from espnet.nets.pytorch_backend.conformer.encoder import Encoder
-from espnet.nets.pytorch_backend.conformer.argument import (
-    add_arguments_conformer_common,  # noqa: H301
+from espnet.nets.pytorch_backend.conformer.argument import (  # noqa: H301
+    add_arguments_conformer_common,
 )
+from espnet.nets.pytorch_backend.conformer.encoder import Encoder
 from espnet.nets.pytorch_backend.e2e_asr import CTC_LOSS_THRESHOLD
 from espnet.nets.pytorch_backend.e2e_asr_transformer import E2E as E2ETransformer
 from espnet.nets.pytorch_backend.maskctc.add_mask_token import mask_uniform
 from espnet.nets.pytorch_backend.maskctc.mask import square_mask
-from espnet.nets.pytorch_backend.nets_utils import make_non_pad_mask
-from espnet.nets.pytorch_backend.nets_utils import th_accuracy
+from espnet.nets.pytorch_backend.nets_utils import make_non_pad_mask, th_accuracy
 
 
 class E2E(E2ETransformer):
@@ -78,7 +77,7 @@ def __init__(self, idim, odim, args, ignore_id=-1):
         self.odim = odim
 
         self.intermediate_ctc_weight = args.intermediate_ctc_weight
-        self.intermediate_ctc_layers = []
+        self.intermediate_ctc_layers = None
         if args.intermediate_ctc_layer != "":
             self.intermediate_ctc_layers = [
                 int(i) for i in args.intermediate_ctc_layer.split(",")
@@ -124,7 +123,10 @@ def forward(self, xs_pad, ilens, ys_pad):
         # 1. forward encoder
         xs_pad = xs_pad[:, : max(ilens)]  # for data parallel
         src_mask = make_non_pad_mask(ilens.tolist()).to(xs_pad.device).unsqueeze(-2)
-        hs_pad, hs_mask, hs_intermediates = self.encoder(xs_pad, src_mask)
+        if self.intermediate_ctc_layers:
+            hs_pad, hs_mask, hs_intermediates = self.encoder(xs_pad, src_mask)
+        else:
+            hs_pad, hs_mask = self.encoder(xs_pad, src_mask)
         self.hs_pad = hs_pad
 
         # 2. forward decoder
diff --git a/espnet/nets/pytorch_backend/e2e_asr_mix.py b/espnet/nets/pytorch_backend/e2e_asr_mix.py
index 377aabe5162..d3952246da6 100644
--- a/espnet/nets/pytorch_backend/e2e_asr_mix.py
+++ b/espnet/nets/pytorch_backend/e2e_asr_mix.py
@@ -8,38 +8,40 @@
 """
 
 import argparse
-from itertools import groupby
 import logging
 import math
 import os
 import sys
+from itertools import groupby
 
 import numpy as np
 import six
 import torch
 
 from espnet.nets.asr_interface import ASRInterface
-from espnet.nets.e2e_asr_common import get_vgg2l_odim
-from espnet.nets.e2e_asr_common import label_smoothing_dist
+from espnet.nets.e2e_asr_common import get_vgg2l_odim, label_smoothing_dist
 from espnet.nets.pytorch_backend.ctc import ctc_for
 from espnet.nets.pytorch_backend.e2e_asr import E2E as E2EASR
 from espnet.nets.pytorch_backend.e2e_asr import Reporter
-from espnet.nets.pytorch_backend.frontends.feature_transform import (
-    feature_transform_for,  # noqa: H301
+from espnet.nets.pytorch_backend.frontends.feature_transform import (  # noqa: H301
+    feature_transform_for,
 )
 from espnet.nets.pytorch_backend.frontends.frontend import frontend_for
-from espnet.nets.pytorch_backend.initialization import lecun_normal_init_parameters
-from espnet.nets.pytorch_backend.initialization import set_forget_bias_to_one
-from espnet.nets.pytorch_backend.nets_utils import get_subsample
-from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
-from espnet.nets.pytorch_backend.nets_utils import pad_list
-from espnet.nets.pytorch_backend.nets_utils import to_device
-from espnet.nets.pytorch_backend.nets_utils import to_torch_tensor
+from espnet.nets.pytorch_backend.initialization import (
+    lecun_normal_init_parameters,
+    set_forget_bias_to_one,
+)
+from espnet.nets.pytorch_backend.nets_utils import (
+    get_subsample,
+    make_pad_mask,
+    pad_list,
+    to_device,
+    to_torch_tensor,
+)
 from espnet.nets.pytorch_backend.rnn.attentions import att_for
 from espnet.nets.pytorch_backend.rnn.decoders import decoder_for
+from espnet.nets.pytorch_backend.rnn.encoders import RNNP, VGG2L
 from espnet.nets.pytorch_backend.rnn.encoders import encoder_for as encoder_for_single
-from espnet.nets.pytorch_backend.rnn.encoders import RNNP
-from espnet.nets.pytorch_backend.rnn.encoders import VGG2L
 
 CTC_LOSS_THRESHOLD = 10000
 
diff --git a/espnet/nets/pytorch_backend/e2e_asr_mix_transformer.py b/espnet/nets/pytorch_backend/e2e_asr_mix_transformer.py
index 4622e9214ae..162c5c66d06 100644
--- a/espnet/nets/pytorch_backend/e2e_asr_mix_transformer.py
+++ b/espnet/nets/pytorch_backend/e2e_asr_mix_transformer.py
@@ -16,9 +16,9 @@
 2. PIT is used in CTC to determine the permutation with minimum loss.
 """
 
-from argparse import Namespace
 import logging
 import math
+from argparse import Namespace
 
 import numpy
 import torch
@@ -31,13 +31,11 @@
 from espnet.nets.pytorch_backend.e2e_asr_mix import E2E as E2EASRMIX
 from espnet.nets.pytorch_backend.e2e_asr_mix import PIT
 from espnet.nets.pytorch_backend.e2e_asr_transformer import E2E as E2EASR
-from espnet.nets.pytorch_backend.nets_utils import make_non_pad_mask
-from espnet.nets.pytorch_backend.nets_utils import th_accuracy
+from espnet.nets.pytorch_backend.nets_utils import make_non_pad_mask, th_accuracy
 from espnet.nets.pytorch_backend.rnn.decoders import CTC_SCORING_RATIO
 from espnet.nets.pytorch_backend.transformer.add_sos_eos import add_sos_eos
 from espnet.nets.pytorch_backend.transformer.encoder_mix import EncoderMix
-from espnet.nets.pytorch_backend.transformer.mask import subsequent_mask
-from espnet.nets.pytorch_backend.transformer.mask import target_mask
+from espnet.nets.pytorch_backend.transformer.mask import subsequent_mask, target_mask
 
 
 class E2E(E2EASR, ASRInterface, torch.nn.Module):
diff --git a/espnet/nets/pytorch_backend/e2e_asr_mulenc.py b/espnet/nets/pytorch_backend/e2e_asr_mulenc.py
index 3e7f78366da..544e421e41e 100644
--- a/espnet/nets/pytorch_backend/e2e_asr_mulenc.py
+++ b/espnet/nets/pytorch_backend/e2e_asr_mulenc.py
@@ -5,27 +5,28 @@
 """Define e2e module for multi-encoder network. https://arxiv.org/pdf/1811.04903.pdf."""
 
 import argparse
-from itertools import groupby
 import logging
 import math
 import os
+from itertools import groupby
 
 import chainer
-from chainer import reporter
 import numpy as np
 import torch
+from chainer import reporter
 
 from espnet.nets.asr_interface import ASRInterface
 from espnet.nets.e2e_asr_common import label_smoothing_dist
 from espnet.nets.pytorch_backend.ctc import ctc_for
-from espnet.nets.pytorch_backend.nets_utils import get_subsample
-from espnet.nets.pytorch_backend.nets_utils import pad_list
-from espnet.nets.pytorch_backend.nets_utils import to_device
-from espnet.nets.pytorch_backend.nets_utils import to_torch_tensor
+from espnet.nets.pytorch_backend.nets_utils import (
+    get_subsample,
+    pad_list,
+    to_device,
+    to_torch_tensor,
+)
 from espnet.nets.pytorch_backend.rnn.attentions import att_for
 from espnet.nets.pytorch_backend.rnn.decoders import decoder_for
-from espnet.nets.pytorch_backend.rnn.encoders import Encoder
-from espnet.nets.pytorch_backend.rnn.encoders import encoder_for
+from espnet.nets.pytorch_backend.rnn.encoders import Encoder, encoder_for
 from espnet.nets.scorers.ctc import CTCPrefixScorer
 from espnet.utils.cli_utils import strtobool
 
diff --git a/espnet/nets/pytorch_backend/e2e_asr_transducer.py b/espnet/nets/pytorch_backend/e2e_asr_transducer.py
index 9ce0cb45dca..b17fc4dbb79 100644
--- a/espnet/nets/pytorch_backend/e2e_asr_transducer.py
+++ b/espnet/nets/pytorch_backend/e2e_asr_transducer.py
@@ -1,30 +1,28 @@
 """Transducer speech recognition model (pytorch)."""
 
-from argparse import ArgumentParser
-from argparse import Namespace
-from dataclasses import asdict
 import logging
 import math
-import numpy
+from argparse import ArgumentParser, Namespace
+from dataclasses import asdict
 from typing import List
 
 import chainer
+import numpy
 import torch
 
 from espnet.nets.asr_interface import ASRInterface
 from espnet.nets.beam_search_transducer import BeamSearchTransducer
-from espnet.nets.pytorch_backend.nets_utils import get_subsample
-from espnet.nets.pytorch_backend.nets_utils import make_non_pad_mask
-from espnet.nets.pytorch_backend.transducer.arguments import (
-    add_auxiliary_task_arguments,  # noqa: H301
-    add_custom_decoder_arguments,  # noqa: H301
-    add_custom_encoder_arguments,  # noqa: H301
-    add_custom_training_arguments,  # noqa: H301
-    add_decoder_general_arguments,  # noqa: H301
-    add_encoder_general_arguments,  # noqa: H301
-    add_rnn_decoder_arguments,  # noqa: H301
-    add_rnn_encoder_arguments,  # noqa: H301
-    add_transducer_arguments,  # noqa: H301
+from espnet.nets.pytorch_backend.nets_utils import get_subsample, make_non_pad_mask
+from espnet.nets.pytorch_backend.transducer.arguments import (  # noqa: H301
+    add_auxiliary_task_arguments,
+    add_custom_decoder_arguments,
+    add_custom_encoder_arguments,
+    add_custom_training_arguments,
+    add_decoder_general_arguments,
+    add_encoder_general_arguments,
+    add_rnn_decoder_arguments,
+    add_rnn_encoder_arguments,
+    add_transducer_arguments,
 )
 from espnet.nets.pytorch_backend.transducer.custom_decoder import CustomDecoder
 from espnet.nets.pytorch_backend.transducer.custom_encoder import CustomEncoder
@@ -33,11 +31,13 @@
 from espnet.nets.pytorch_backend.transducer.rnn_decoder import RNNDecoder
 from espnet.nets.pytorch_backend.transducer.rnn_encoder import encoder_for
 from espnet.nets.pytorch_backend.transducer.transducer_tasks import TransducerTasks
-from espnet.nets.pytorch_backend.transducer.utils import get_decoder_input
-from espnet.nets.pytorch_backend.transducer.utils import valid_aux_encoder_output_layers
-from espnet.nets.pytorch_backend.transformer.attention import (
-    MultiHeadedAttention,  # noqa: H301
-    RelPositionMultiHeadedAttention,  # noqa: H301
+from espnet.nets.pytorch_backend.transducer.utils import (
+    get_decoder_input,
+    valid_aux_encoder_output_layers,
+)
+from espnet.nets.pytorch_backend.transformer.attention import (  # noqa: H301
+    MultiHeadedAttention,
+    RelPositionMultiHeadedAttention,
 )
 from espnet.nets.pytorch_backend.transformer.mask import target_mask
 from espnet.nets.pytorch_backend.transformer.plot import PlotAttentionReport
diff --git a/espnet/nets/pytorch_backend/e2e_asr_transformer.py b/espnet/nets/pytorch_backend/e2e_asr_transformer.py
index b13c7e452b6..4ceb0063b9b 100644
--- a/espnet/nets/pytorch_backend/e2e_asr_transformer.py
+++ b/espnet/nets/pytorch_backend/e2e_asr_transformer.py
@@ -3,42 +3,41 @@
 
 """Transformer speech recognition model (pytorch)."""
 
-from argparse import Namespace
 import logging
 import math
+from argparse import Namespace
 
 import numpy
 import torch
 
 from espnet.nets.asr_interface import ASRInterface
 from espnet.nets.ctc_prefix_score import CTCPrefixScore
-from espnet.nets.e2e_asr_common import end_detect
-from espnet.nets.e2e_asr_common import ErrorCalculator
+from espnet.nets.e2e_asr_common import ErrorCalculator, end_detect
 from espnet.nets.pytorch_backend.ctc import CTC
-from espnet.nets.pytorch_backend.e2e_asr import CTC_LOSS_THRESHOLD
-from espnet.nets.pytorch_backend.e2e_asr import Reporter
-from espnet.nets.pytorch_backend.nets_utils import get_subsample
-from espnet.nets.pytorch_backend.nets_utils import make_non_pad_mask
-from espnet.nets.pytorch_backend.nets_utils import th_accuracy
+from espnet.nets.pytorch_backend.e2e_asr import CTC_LOSS_THRESHOLD, Reporter
+from espnet.nets.pytorch_backend.nets_utils import (
+    get_subsample,
+    make_non_pad_mask,
+    th_accuracy,
+)
 from espnet.nets.pytorch_backend.rnn.decoders import CTC_SCORING_RATIO
 from espnet.nets.pytorch_backend.transformer.add_sos_eos import add_sos_eos
-from espnet.nets.pytorch_backend.transformer.argument import (
-    add_arguments_transformer_common,  # noqa: H301
+from espnet.nets.pytorch_backend.transformer.argument import (  # noqa: H301
+    add_arguments_transformer_common,
 )
-from espnet.nets.pytorch_backend.transformer.attention import (
-    MultiHeadedAttention,  # noqa: H301
-    RelPositionMultiHeadedAttention,  # noqa: H301
+from espnet.nets.pytorch_backend.transformer.attention import (  # noqa: H301
+    MultiHeadedAttention,
+    RelPositionMultiHeadedAttention,
 )
 from espnet.nets.pytorch_backend.transformer.decoder import Decoder
 from espnet.nets.pytorch_backend.transformer.dynamic_conv import DynamicConvolution
 from espnet.nets.pytorch_backend.transformer.dynamic_conv2d import DynamicConvolution2D
 from espnet.nets.pytorch_backend.transformer.encoder import Encoder
 from espnet.nets.pytorch_backend.transformer.initializer import initialize
-from espnet.nets.pytorch_backend.transformer.label_smoothing_loss import (
-    LabelSmoothingLoss,  # noqa: H301
+from espnet.nets.pytorch_backend.transformer.label_smoothing_loss import (  # noqa: H301
+    LabelSmoothingLoss,
 )
-from espnet.nets.pytorch_backend.transformer.mask import subsequent_mask
-from espnet.nets.pytorch_backend.transformer.mask import target_mask
+from espnet.nets.pytorch_backend.transformer.mask import subsequent_mask, target_mask
 from espnet.nets.pytorch_backend.transformer.plot import PlotAttentionReport
 from espnet.nets.scorers.ctc import CTCPrefixScorer
 from espnet.utils.fill_missing_args import fill_missing_args
@@ -97,7 +96,7 @@ def __init__(self, idim, odim, args, ignore_id=-1):
             self.ctc = None
 
         self.intermediate_ctc_weight = args.intermediate_ctc_weight
-        self.intermediate_ctc_layers = []
+        self.intermediate_ctc_layers = None
         if args.intermediate_ctc_layer != "":
             self.intermediate_ctc_layers = [
                 int(i) for i in args.intermediate_ctc_layer.split(",")
@@ -190,7 +189,10 @@ def forward(self, xs_pad, ilens, ys_pad):
         # 1. forward encoder
         xs_pad = xs_pad[:, : max(ilens)]  # for data parallel
         src_mask = make_non_pad_mask(ilens.tolist()).to(xs_pad.device).unsqueeze(-2)
-        hs_pad, hs_mask, hs_intermediates = self.encoder(xs_pad, src_mask)
+        if self.intermediate_ctc_layers:
+            hs_pad, hs_mask, hs_intermediates = self.encoder(xs_pad, src_mask)
+        else:
+            hs_pad, hs_mask = self.encoder(xs_pad, src_mask)
         self.hs_pad = hs_pad
 
         # 2. forward decoder
@@ -292,7 +294,7 @@ def encode(self, x):
         """
         self.eval()
         x = torch.as_tensor(x).unsqueeze(0)
-        enc_output, _, _ = self.encoder(x, None)
+        enc_output, *_ = self.encoder(x, None)
         return enc_output.squeeze(0)
 
     def recognize(self, x, recog_args, char_list=None, rnnlm=None, use_jit=False):
diff --git a/espnet/nets/pytorch_backend/e2e_mt.py b/espnet/nets/pytorch_backend/e2e_mt.py
index 9dffdd7ba8d..8d9a48f76d7 100644
--- a/espnet/nets/pytorch_backend/e2e_mt.py
+++ b/espnet/nets/pytorch_backend/e2e_mt.py
@@ -9,21 +9,19 @@
 import os
 
 import chainer
-from chainer import reporter
 import nltk
 import numpy as np
 import torch
+from chainer import reporter
 
 from espnet.nets.e2e_asr_common import label_smoothing_dist
 from espnet.nets.mt_interface import MTInterface
 from espnet.nets.pytorch_backend.initialization import uniform_init_parameters
-from espnet.nets.pytorch_backend.nets_utils import get_subsample
-from espnet.nets.pytorch_backend.nets_utils import pad_list
-from espnet.nets.pytorch_backend.nets_utils import to_device
-from espnet.nets.pytorch_backend.rnn.argument import (
-    add_arguments_rnn_encoder_common,  # noqa: H301
-    add_arguments_rnn_decoder_common,  # noqa: H301
-    add_arguments_rnn_attention_common,  # noqa: H301
+from espnet.nets.pytorch_backend.nets_utils import get_subsample, pad_list, to_device
+from espnet.nets.pytorch_backend.rnn.argument import (  # noqa: H301
+    add_arguments_rnn_attention_common,
+    add_arguments_rnn_decoder_common,
+    add_arguments_rnn_encoder_common,
 )
 from espnet.nets.pytorch_backend.rnn.attentions import att_for
 from espnet.nets.pytorch_backend.rnn.decoders import decoder_for
diff --git a/espnet/nets/pytorch_backend/e2e_mt_transformer.py b/espnet/nets/pytorch_backend/e2e_mt_transformer.py
index 5e4b9bb70e1..26189dcdfb4 100644
--- a/espnet/nets/pytorch_backend/e2e_mt_transformer.py
+++ b/espnet/nets/pytorch_backend/e2e_mt_transformer.py
@@ -3,9 +3,9 @@
 
 """Transformer text translation model (pytorch)."""
 
-from argparse import Namespace
 import logging
 import math
+from argparse import Namespace
 
 import numpy as np
 import torch
@@ -14,23 +14,24 @@
 from espnet.nets.e2e_mt_common import ErrorCalculator
 from espnet.nets.mt_interface import MTInterface
 from espnet.nets.pytorch_backend.e2e_mt import Reporter
-from espnet.nets.pytorch_backend.nets_utils import get_subsample
-from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
-from espnet.nets.pytorch_backend.nets_utils import th_accuracy
-from espnet.nets.pytorch_backend.nets_utils import to_device
+from espnet.nets.pytorch_backend.nets_utils import (
+    get_subsample,
+    make_pad_mask,
+    th_accuracy,
+    to_device,
+)
 from espnet.nets.pytorch_backend.transformer.add_sos_eos import add_sos_eos
-from espnet.nets.pytorch_backend.transformer.argument import (
-    add_arguments_transformer_common,  # noqa: H301
+from espnet.nets.pytorch_backend.transformer.argument import (  # noqa: H301
+    add_arguments_transformer_common,
 )
 from espnet.nets.pytorch_backend.transformer.attention import MultiHeadedAttention
 from espnet.nets.pytorch_backend.transformer.decoder import Decoder
 from espnet.nets.pytorch_backend.transformer.encoder import Encoder
 from espnet.nets.pytorch_backend.transformer.initializer import initialize
-from espnet.nets.pytorch_backend.transformer.label_smoothing_loss import (
-    LabelSmoothingLoss,  # noqa: H301
+from espnet.nets.pytorch_backend.transformer.label_smoothing_loss import (  # noqa: H301
+    LabelSmoothingLoss,
 )
-from espnet.nets.pytorch_backend.transformer.mask import subsequent_mask
-from espnet.nets.pytorch_backend.transformer.mask import target_mask
+from espnet.nets.pytorch_backend.transformer.mask import subsequent_mask, target_mask
 from espnet.nets.pytorch_backend.transformer.plot import PlotAttentionReport
 from espnet.utils.fill_missing_args import fill_missing_args
 
diff --git a/espnet/nets/pytorch_backend/e2e_st.py b/espnet/nets/pytorch_backend/e2e_st.py
index 1464c896833..79a457a50d2 100644
--- a/espnet/nets/pytorch_backend/e2e_st.py
+++ b/espnet/nets/pytorch_backend/e2e_st.py
@@ -8,30 +8,31 @@
 import logging
 import math
 import os
-
-import nltk
+from itertools import groupby
 
 import chainer
+import nltk
 import numpy as np
 import six
 import torch
-
-from itertools import groupby
-
 from chainer import reporter
 
 from espnet.nets.e2e_asr_common import label_smoothing_dist
 from espnet.nets.pytorch_backend.ctc import CTC
-from espnet.nets.pytorch_backend.initialization import lecun_normal_init_parameters
-from espnet.nets.pytorch_backend.initialization import set_forget_bias_to_one
-from espnet.nets.pytorch_backend.nets_utils import get_subsample
-from espnet.nets.pytorch_backend.nets_utils import pad_list
-from espnet.nets.pytorch_backend.nets_utils import to_device
-from espnet.nets.pytorch_backend.nets_utils import to_torch_tensor
-from espnet.nets.pytorch_backend.rnn.argument import (
-    add_arguments_rnn_encoder_common,  # noqa: H301
-    add_arguments_rnn_decoder_common,  # noqa: H301
-    add_arguments_rnn_attention_common,  # noqa: H301
+from espnet.nets.pytorch_backend.initialization import (
+    lecun_normal_init_parameters,
+    set_forget_bias_to_one,
+)
+from espnet.nets.pytorch_backend.nets_utils import (
+    get_subsample,
+    pad_list,
+    to_device,
+    to_torch_tensor,
+)
+from espnet.nets.pytorch_backend.rnn.argument import (  # noqa: H301
+    add_arguments_rnn_attention_common,
+    add_arguments_rnn_decoder_common,
+    add_arguments_rnn_encoder_common,
 )
 from espnet.nets.pytorch_backend.rnn.attentions import att_for
 from espnet.nets.pytorch_backend.rnn.decoders import decoder_for
diff --git a/espnet/nets/pytorch_backend/e2e_st_conformer.py b/espnet/nets/pytorch_backend/e2e_st_conformer.py
index f34bb1f598a..8bbd8889435 100644
--- a/espnet/nets/pytorch_backend/e2e_st_conformer.py
+++ b/espnet/nets/pytorch_backend/e2e_st_conformer.py
@@ -9,12 +9,12 @@
 
 """
 
+from espnet.nets.pytorch_backend.conformer.argument import (  # noqa: H301
+    add_arguments_conformer_common,
+    verify_rel_pos_type,
+)
 from espnet.nets.pytorch_backend.conformer.encoder import Encoder
 from espnet.nets.pytorch_backend.e2e_st_transformer import E2E as E2ETransformer
-from espnet.nets.pytorch_backend.conformer.argument import (
-    add_arguments_conformer_common,  # noqa: H301
-    verify_rel_pos_type,  # noqa: H301
-)
 
 
 class E2E(E2ETransformer):
diff --git a/espnet/nets/pytorch_backend/e2e_st_transformer.py b/espnet/nets/pytorch_backend/e2e_st_transformer.py
index 8c6406cb9ee..2365732b6e4 100644
--- a/espnet/nets/pytorch_backend/e2e_st_transformer.py
+++ b/espnet/nets/pytorch_backend/e2e_st_transformer.py
@@ -3,36 +3,37 @@
 
 """Transformer speech recognition model (pytorch)."""
 
-from argparse import Namespace
 import logging
 import math
-import numpy
+from argparse import Namespace
 
+import numpy
 import torch
 
-from espnet.nets.e2e_asr_common import end_detect
 from espnet.nets.e2e_asr_common import ErrorCalculator as ASRErrorCalculator
+from espnet.nets.e2e_asr_common import end_detect
 from espnet.nets.e2e_mt_common import ErrorCalculator as MTErrorCalculator
 from espnet.nets.pytorch_backend.ctc import CTC
 from espnet.nets.pytorch_backend.e2e_asr import CTC_LOSS_THRESHOLD
 from espnet.nets.pytorch_backend.e2e_st import Reporter
-from espnet.nets.pytorch_backend.nets_utils import get_subsample
-from espnet.nets.pytorch_backend.nets_utils import make_non_pad_mask
-from espnet.nets.pytorch_backend.nets_utils import pad_list
-from espnet.nets.pytorch_backend.nets_utils import th_accuracy
+from espnet.nets.pytorch_backend.nets_utils import (
+    get_subsample,
+    make_non_pad_mask,
+    pad_list,
+    th_accuracy,
+)
 from espnet.nets.pytorch_backend.transformer.add_sos_eos import add_sos_eos
-from espnet.nets.pytorch_backend.transformer.argument import (
-    add_arguments_transformer_common,  # noqa: H301
+from espnet.nets.pytorch_backend.transformer.argument import (  # noqa: H301
+    add_arguments_transformer_common,
 )
 from espnet.nets.pytorch_backend.transformer.attention import MultiHeadedAttention
 from espnet.nets.pytorch_backend.transformer.decoder import Decoder
 from espnet.nets.pytorch_backend.transformer.encoder import Encoder
 from espnet.nets.pytorch_backend.transformer.initializer import initialize
-from espnet.nets.pytorch_backend.transformer.label_smoothing_loss import (
-    LabelSmoothingLoss,  # noqa: H301
+from espnet.nets.pytorch_backend.transformer.label_smoothing_loss import (  # noqa: H301
+    LabelSmoothingLoss,
 )
-from espnet.nets.pytorch_backend.transformer.mask import subsequent_mask
-from espnet.nets.pytorch_backend.transformer.mask import target_mask
+from espnet.nets.pytorch_backend.transformer.mask import subsequent_mask, target_mask
 from espnet.nets.pytorch_backend.transformer.plot import PlotAttentionReport
 from espnet.nets.st_interface import STInterface
 from espnet.utils.fill_missing_args import fill_missing_args
diff --git a/espnet/nets/pytorch_backend/e2e_tts_fastspeech.py b/espnet/nets/pytorch_backend/e2e_tts_fastspeech.py
index c5a3069e53c..83bc07ab0fe 100644
--- a/espnet/nets/pytorch_backend/e2e_tts_fastspeech.py
+++ b/espnet/nets/pytorch_backend/e2e_tts_fastspeech.py
@@ -8,22 +8,22 @@
 import torch
 import torch.nn.functional as F
 
-from espnet.asr.asr_utils import get_model_conf
-from espnet.asr.asr_utils import torch_load
-from espnet.nets.pytorch_backend.fastspeech.duration_calculator import (
-    DurationCalculator,  # noqa: H301
+from espnet.asr.asr_utils import get_model_conf, torch_load
+from espnet.nets.pytorch_backend.fastspeech.duration_calculator import (  # noqa: H301
+    DurationCalculator,
 )
-from espnet.nets.pytorch_backend.fastspeech.duration_predictor import DurationPredictor
-from espnet.nets.pytorch_backend.fastspeech.duration_predictor import (
-    DurationPredictorLoss,  # noqa: H301
+from espnet.nets.pytorch_backend.fastspeech.duration_predictor import (  # noqa: H301
+    DurationPredictor,
+    DurationPredictorLoss,
 )
 from espnet.nets.pytorch_backend.fastspeech.length_regulator import LengthRegulator
-from espnet.nets.pytorch_backend.nets_utils import make_non_pad_mask
-from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
+from espnet.nets.pytorch_backend.nets_utils import make_non_pad_mask, make_pad_mask
 from espnet.nets.pytorch_backend.tacotron2.decoder import Postnet
 from espnet.nets.pytorch_backend.transformer.attention import MultiHeadedAttention
-from espnet.nets.pytorch_backend.transformer.embedding import PositionalEncoding
-from espnet.nets.pytorch_backend.transformer.embedding import ScaledPositionalEncoding
+from espnet.nets.pytorch_backend.transformer.embedding import (
+    PositionalEncoding,
+    ScaledPositionalEncoding,
+)
 from espnet.nets.pytorch_backend.transformer.encoder import Encoder
 from espnet.nets.pytorch_backend.transformer.initializer import initialize
 from espnet.nets.tts_interface import TTSInterface
@@ -576,7 +576,7 @@ def _forward(
         alpha=1.0,
     ):
         # forward encoder
-        x_masks = self._source_mask(ilens)
+        x_masks = self._source_mask(ilens).to(xs.device)
         hs, _ = self.encoder(xs, x_masks)  # (B, Tmax, adim)
 
         # integrate speaker embedding
@@ -603,7 +603,7 @@ def _forward(
                 olens_in = olens.new([olen // self.reduction_factor for olen in olens])
             else:
                 olens_in = olens
-            h_masks = self._source_mask(olens_in)
+            h_masks = self._source_mask(olens_in).to(xs.device)
         else:
             h_masks = None
         zs, _ = self.decoder(hs, h_masks)  # (B, Lmax, adim)
@@ -816,7 +816,7 @@ def _source_mask(self, ilens):
                      [1, 1, 1, 0, 0]]], dtype=torch.uint8)
 
         """
-        x_masks = make_non_pad_mask(ilens).to(next(self.parameters()).device)
+        x_masks = make_non_pad_mask(ilens)
         return x_masks.unsqueeze(-2)
 
     def _load_teacher_model(self, model_path):
diff --git a/espnet/nets/pytorch_backend/e2e_tts_tacotron2.py b/espnet/nets/pytorch_backend/e2e_tts_tacotron2.py
index 2e543d932e7..c2c5ac5fb16 100644
--- a/espnet/nets/pytorch_backend/e2e_tts_tacotron2.py
+++ b/espnet/nets/pytorch_backend/e2e_tts_tacotron2.py
@@ -10,11 +10,8 @@
 import torch.nn.functional as F
 
 from espnet.nets.pytorch_backend.nets_utils import make_non_pad_mask
-from espnet.nets.pytorch_backend.rnn.attentions import AttForward
-from espnet.nets.pytorch_backend.rnn.attentions import AttForwardTA
-from espnet.nets.pytorch_backend.rnn.attentions import AttLoc
-from espnet.nets.pytorch_backend.tacotron2.cbhg import CBHG
-from espnet.nets.pytorch_backend.tacotron2.cbhg import CBHGLoss
+from espnet.nets.pytorch_backend.rnn.attentions import AttForward, AttForwardTA, AttLoc
+from espnet.nets.pytorch_backend.tacotron2.cbhg import CBHG, CBHGLoss
 from espnet.nets.pytorch_backend.tacotron2.decoder import Decoder
 from espnet.nets.pytorch_backend.tacotron2.encoder import Encoder
 from espnet.nets.tts_interface import TTSInterface
diff --git a/espnet/nets/pytorch_backend/e2e_tts_transformer.py b/espnet/nets/pytorch_backend/e2e_tts_transformer.py
index 9f860285d55..a4eb556b6d8 100644
--- a/espnet/nets/pytorch_backend/e2e_tts_transformer.py
+++ b/espnet/nets/pytorch_backend/e2e_tts_transformer.py
@@ -10,7 +10,7 @@
 
 from espnet.nets.pytorch_backend.e2e_tts_tacotron2 import GuidedAttentionLoss
 from espnet.nets.pytorch_backend.e2e_tts_tacotron2 import (
-    Tacotron2Loss as TransformerLoss,  # noqa: H301
+    Tacotron2Loss as TransformerLoss,
 )
 from espnet.nets.pytorch_backend.nets_utils import make_non_pad_mask
 from espnet.nets.pytorch_backend.tacotron2.decoder import Postnet
@@ -18,8 +18,10 @@
 from espnet.nets.pytorch_backend.tacotron2.encoder import Encoder as EncoderPrenet
 from espnet.nets.pytorch_backend.transformer.attention import MultiHeadedAttention
 from espnet.nets.pytorch_backend.transformer.decoder import Decoder
-from espnet.nets.pytorch_backend.transformer.embedding import PositionalEncoding
-from espnet.nets.pytorch_backend.transformer.embedding import ScaledPositionalEncoding
+from espnet.nets.pytorch_backend.transformer.embedding import (
+    PositionalEncoding,
+    ScaledPositionalEncoding,
+)
 from espnet.nets.pytorch_backend.transformer.encoder import Encoder
 from espnet.nets.pytorch_backend.transformer.initializer import initialize
 from espnet.nets.pytorch_backend.transformer.mask import subsequent_mask
@@ -93,8 +95,9 @@ def plotfn(
 
             """
             import matplotlib.pyplot as plt
-            from espnet.nets.pytorch_backend.transformer.plot import (
-                _plot_and_save_attention,  # noqa: H301
+
+            from espnet.nets.pytorch_backend.transformer.plot import (  # noqa: H301
+                _plot_and_save_attention,
             )
 
             for name, att_ws in attn_dict.items():
@@ -714,7 +717,7 @@ def forward(self, xs, ilens, ys, labels, olens, spembs=None, *args, **kwargs):
             labels = labels[:, :max_olen]
 
         # forward encoder
-        x_masks = self._source_mask(ilens)
+        x_masks = self._source_mask(ilens).to(xs.device)
         hs, h_masks = self.encoder(xs, x_masks)
 
         # integrate speaker embedding
@@ -732,7 +735,7 @@ def forward(self, xs, ilens, ys, labels, olens, spembs=None, *args, **kwargs):
         ys_in = self._add_first_frame_and_remove_last_frame(ys_in)
 
         # forward decoder
-        y_masks = self._target_mask(olens_in)
+        y_masks = self._target_mask(olens_in).to(xs.device)
         zs, _ = self.decoder(ys_in, y_masks, hs, h_masks)
         # (B, Lmax//r, odim * r) -> (B, Lmax//r * r, odim)
         before_outs = self.feat_out(zs).view(zs.size(0), -1, self.odim)
@@ -975,7 +978,7 @@ def calculate_all_attentions(
         self.eval()
         with torch.no_grad():
             # forward encoder
-            x_masks = self._source_mask(ilens)
+            x_masks = self._source_mask(ilens).to(xs.device)
             hs, h_masks = self.encoder(xs, x_masks)
 
             # integrate speaker embedding
@@ -994,7 +997,7 @@ def calculate_all_attentions(
             ys_in = self._add_first_frame_and_remove_last_frame(ys_in)
 
             # forward decoder
-            y_masks = self._target_mask(olens_in)
+            y_masks = self._target_mask(olens_in).to(xs.device)
             zs, _ = self.decoder(ys_in, y_masks, hs, h_masks)
 
             # calculate final outputs
@@ -1097,7 +1100,7 @@ def _source_mask(self, ilens):
                     [[1, 1, 1, 0, 0]]], dtype=torch.uint8)
 
         """
-        x_masks = make_non_pad_mask(ilens).to(next(self.parameters()).device)
+        x_masks = make_non_pad_mask(ilens)
         return x_masks.unsqueeze(-2)
 
     def _target_mask(self, olens):
@@ -1126,7 +1129,7 @@ def _target_mask(self, olens):
                      [1, 1, 1, 0, 0]]], dtype=torch.uint8)
 
         """
-        y_masks = make_non_pad_mask(olens).to(next(self.parameters()).device)
+        y_masks = make_non_pad_mask(olens)
         s_masks = subsequent_mask(y_masks.size(-1), device=y_masks.device).unsqueeze(0)
         return y_masks.unsqueeze(-2) & s_masks
 
diff --git a/espnet/nets/pytorch_backend/e2e_vc_tacotron2.py b/espnet/nets/pytorch_backend/e2e_vc_tacotron2.py
index 049d9407f8a..ef52f0b8837 100644
--- a/espnet/nets/pytorch_backend/e2e_vc_tacotron2.py
+++ b/espnet/nets/pytorch_backend/e2e_vc_tacotron2.py
@@ -4,26 +4,22 @@
 """Tacotron2-VC related modules."""
 
 import logging
-
 from distutils.util import strtobool
 
 import numpy as np
 import torch
 import torch.nn.functional as F
 
-from espnet.nets.pytorch_backend.rnn.attentions import AttForward
-from espnet.nets.pytorch_backend.rnn.attentions import AttForwardTA
-from espnet.nets.pytorch_backend.rnn.attentions import AttLoc
-from espnet.nets.pytorch_backend.tacotron2.cbhg import CBHG
-from espnet.nets.pytorch_backend.tacotron2.cbhg import CBHGLoss
+from espnet.nets.pytorch_backend.e2e_tts_tacotron2 import Tacotron2Loss  # noqa: H301
+from espnet.nets.pytorch_backend.e2e_tts_tacotron2 import (  # noqa: H301
+    GuidedAttentionLoss,
+)
+from espnet.nets.pytorch_backend.rnn.attentions import AttForward, AttForwardTA, AttLoc
+from espnet.nets.pytorch_backend.tacotron2.cbhg import CBHG, CBHGLoss
 from espnet.nets.pytorch_backend.tacotron2.decoder import Decoder
 from espnet.nets.pytorch_backend.tacotron2.encoder import Encoder
 from espnet.nets.tts_interface import TTSInterface
 from espnet.utils.fill_missing_args import fill_missing_args
-from espnet.nets.pytorch_backend.e2e_tts_tacotron2 import (
-    GuidedAttentionLoss,  # noqa: H301
-    Tacotron2Loss,  # noqa: H301
-)
 
 
 class Tacotron2(TTSInterface, torch.nn.Module):
diff --git a/espnet/nets/pytorch_backend/e2e_vc_transformer.py b/espnet/nets/pytorch_backend/e2e_vc_transformer.py
index c4e0144d412..b4aa5454897 100644
--- a/espnet/nets/pytorch_backend/e2e_vc_transformer.py
+++ b/espnet/nets/pytorch_backend/e2e_vc_transformer.py
@@ -10,7 +10,11 @@
 
 from espnet.nets.pytorch_backend.e2e_asr_transformer import subsequent_mask
 from espnet.nets.pytorch_backend.e2e_tts_tacotron2 import (
-    Tacotron2Loss as TransformerLoss,  # noqa: H301
+    Tacotron2Loss as TransformerLoss,
+)
+from espnet.nets.pytorch_backend.e2e_tts_transformer import TTSPlot  # noqa: H301
+from espnet.nets.pytorch_backend.e2e_tts_transformer import (  # noqa: H301
+    GuidedMultiHeadAttentionLoss,
 )
 from espnet.nets.pytorch_backend.nets_utils import make_non_pad_mask
 from espnet.nets.pytorch_backend.tacotron2.decoder import Postnet
@@ -18,17 +22,15 @@
 from espnet.nets.pytorch_backend.tacotron2.encoder import Encoder as EncoderPrenet
 from espnet.nets.pytorch_backend.transformer.attention import MultiHeadedAttention
 from espnet.nets.pytorch_backend.transformer.decoder import Decoder
-from espnet.nets.pytorch_backend.transformer.embedding import PositionalEncoding
-from espnet.nets.pytorch_backend.transformer.embedding import ScaledPositionalEncoding
+from espnet.nets.pytorch_backend.transformer.embedding import (
+    PositionalEncoding,
+    ScaledPositionalEncoding,
+)
 from espnet.nets.pytorch_backend.transformer.encoder import Encoder
 from espnet.nets.pytorch_backend.transformer.initializer import initialize
 from espnet.nets.tts_interface import TTSInterface
 from espnet.utils.cli_utils import strtobool
 from espnet.utils.fill_missing_args import fill_missing_args
-from espnet.nets.pytorch_backend.e2e_tts_transformer import (
-    GuidedMultiHeadAttentionLoss,  # noqa: H301
-    TTSPlot,  # noqa: H301
-)
 
 
 class Transformer(TTSInterface, torch.nn.Module):
@@ -673,7 +675,7 @@ def forward(self, xs, ilens, ys, labels, olens, spembs=None, *args, **kwargs):
             xs_ds, ilens_ds = xs, ilens
 
         # forward encoder
-        x_masks = self._source_mask(ilens_ds)
+        x_masks = self._source_mask(ilens_ds).to(xs.device)
         hs, hs_masks = self.encoder(xs_ds, x_masks)
 
         # integrate speaker embedding
@@ -701,7 +703,7 @@ def forward(self, xs, ilens, ys, labels, olens, spembs=None, *args, **kwargs):
             ilens_ds_st = ilens_ds
 
         # forward decoder
-        y_masks = self._target_mask(olens_in)
+        y_masks = self._target_mask(olens_in).to(xs.device)
         zs, _ = self.decoder(ys_in, y_masks, hs_int, hs_masks)
         # (B, Lmax//r, odim * r) -> (B, Lmax//r * r, odim)
         before_outs = self.feat_out(zs).view(zs.size(0), -1, self.odim)
@@ -977,7 +979,7 @@ def calculate_all_attentions(
                 xs_ds, ilens_ds = xs, ilens
 
             # forward encoder
-            x_masks = self._source_mask(ilens_ds)
+            x_masks = self._source_mask(ilens_ds).to(xs.device)
             hs, hs_masks = self.encoder(xs_ds, x_masks)
 
             # integrate speaker embedding
@@ -996,7 +998,7 @@ def calculate_all_attentions(
             ys_in = self._add_first_frame_and_remove_last_frame(ys_in)
 
             # forward decoder
-            y_masks = self._target_mask(olens_in)
+            y_masks = self._target_mask(olens_in).to(xs.device)
             zs, _ = self.decoder(ys_in, y_masks, hs, hs_masks)
 
             # calculate final outputs
@@ -1099,7 +1101,7 @@ def _source_mask(self, ilens):
                     [[1, 1, 1, 0, 0]]], dtype=torch.uint8)
 
         """
-        x_masks = make_non_pad_mask(ilens).to(next(self.parameters()).device)
+        x_masks = make_non_pad_mask(ilens)
         return x_masks.unsqueeze(-2)
 
     def _target_mask(self, olens):
@@ -1128,7 +1130,7 @@ def _target_mask(self, olens):
                      [1, 1, 1, 0, 0]]], dtype=torch.uint8)
 
         """
-        y_masks = make_non_pad_mask(olens).to(next(self.parameters()).device)
+        y_masks = make_non_pad_mask(olens)
         s_masks = subsequent_mask(y_masks.size(-1), device=y_masks.device).unsqueeze(0)
         return y_masks.unsqueeze(-2) & s_masks
 
diff --git a/espnet/nets/pytorch_backend/frontends/dnn_beamformer.py b/espnet/nets/pytorch_backend/frontends/dnn_beamformer.py
index 1495c81a40d..7074fa714c1 100644
--- a/espnet/nets/pytorch_backend/frontends/dnn_beamformer.py
+++ b/espnet/nets/pytorch_backend/frontends/dnn_beamformer.py
@@ -3,14 +3,14 @@
 
 import torch
 from torch.nn import functional as F
+from torch_complex.tensor import ComplexTensor
 
-from espnet.nets.pytorch_backend.frontends.beamformer import apply_beamforming_vector
-from espnet.nets.pytorch_backend.frontends.beamformer import get_mvdr_vector
-from espnet.nets.pytorch_backend.frontends.beamformer import (
-    get_power_spectral_density_matrix,  # noqa: H301
+from espnet.nets.pytorch_backend.frontends.beamformer import (  # noqa: H301
+    apply_beamforming_vector,
+    get_mvdr_vector,
+    get_power_spectral_density_matrix,
 )
 from espnet.nets.pytorch_backend.frontends.mask_estimator import MaskEstimator
-from torch_complex.tensor import ComplexTensor
 
 
 class DNN_Beamformer(torch.nn.Module):
diff --git a/espnet/nets/pytorch_backend/frontends/dnn_wpe.py b/espnet/nets/pytorch_backend/frontends/dnn_wpe.py
index 8bfe599d2f7..02a753a78f5 100644
--- a/espnet/nets/pytorch_backend/frontends/dnn_wpe.py
+++ b/espnet/nets/pytorch_backend/frontends/dnn_wpe.py
@@ -1,7 +1,7 @@
 from typing import Tuple
 
-from pytorch_wpe import wpe_one_iteration
 import torch
+from pytorch_wpe import wpe_one_iteration
 from torch_complex.tensor import ComplexTensor
 
 from espnet.nets.pytorch_backend.frontends.mask_estimator import MaskEstimator
diff --git a/espnet/nets/pytorch_backend/frontends/feature_transform.py b/espnet/nets/pytorch_backend/frontends/feature_transform.py
index 53915d28815..9fe4ada9b65 100644
--- a/espnet/nets/pytorch_backend/frontends/feature_transform.py
+++ b/espnet/nets/pytorch_backend/frontends/feature_transform.py
@@ -1,6 +1,4 @@
-from typing import List
-from typing import Tuple
-from typing import Union
+from typing import List, Tuple, Union
 
 import librosa
 import numpy as np
diff --git a/espnet/nets/pytorch_backend/frontends/frontend.py b/espnet/nets/pytorch_backend/frontends/frontend.py
index 7231f68b35f..e60e3ff8628 100644
--- a/espnet/nets/pytorch_backend/frontends/frontend.py
+++ b/espnet/nets/pytorch_backend/frontends/frontend.py
@@ -1,7 +1,4 @@
-from typing import List
-from typing import Optional
-from typing import Tuple
-from typing import Union
+from typing import List, Optional, Tuple, Union
 
 import numpy
 import torch
diff --git a/espnet/nets/pytorch_backend/frontends/mask_estimator.py b/espnet/nets/pytorch_backend/frontends/mask_estimator.py
index 861527c7a90..3ebdb3ff148 100644
--- a/espnet/nets/pytorch_backend/frontends/mask_estimator.py
+++ b/espnet/nets/pytorch_backend/frontends/mask_estimator.py
@@ -6,8 +6,7 @@
 from torch_complex.tensor import ComplexTensor
 
 from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
-from espnet.nets.pytorch_backend.rnn.encoders import RNN
-from espnet.nets.pytorch_backend.rnn.encoders import RNNP
+from espnet.nets.pytorch_backend.rnn.encoders import RNN, RNNP
 
 
 class MaskEstimator(torch.nn.Module):
diff --git a/espnet/nets/pytorch_backend/lm/default.py b/espnet/nets/pytorch_backend/lm/default.py
index 01bb26ea4a0..7a161333d4e 100644
--- a/espnet/nets/pytorch_backend/lm/default.py
+++ b/espnet/nets/pytorch_backend/lm/default.py
@@ -1,10 +1,8 @@
 """Default Recurrent Neural Network Languge Model in `lm_train.py`."""
 
-from typing import Any
-from typing import List
-from typing import Tuple
-
 import logging
+from typing import Any, List, Tuple
+
 import torch
 import torch.nn as nn
 import torch.nn.functional as F
diff --git a/espnet/nets/pytorch_backend/lm/transformer.py b/espnet/nets/pytorch_backend/lm/transformer.py
index 42c2f86d461..8cddab89ccd 100644
--- a/espnet/nets/pytorch_backend/lm/transformer.py
+++ b/espnet/nets/pytorch_backend/lm/transformer.py
@@ -1,10 +1,8 @@
 """Transformer language model."""
 
-from typing import Any
-from typing import List
-from typing import Tuple
-
 import logging
+from typing import Any, List, Tuple
+
 import torch
 import torch.nn as nn
 import torch.nn.functional as F
diff --git a/espnet/nets/pytorch_backend/nets_utils.py b/espnet/nets/pytorch_backend/nets_utils.py
index a21ff54a78e..638b0b0bf23 100644
--- a/espnet/nets/pytorch_backend/nets_utils.py
+++ b/espnet/nets/pytorch_backend/nets_utils.py
@@ -151,7 +151,8 @@ def make_pad_mask(lengths, xs=None, length_dim=-1, maxlen=None):
         raise ValueError("length_dim cannot be 0: {}".format(length_dim))
 
     if not isinstance(lengths, list):
-        lengths = lengths.tolist()
+        lengths = lengths.long().tolist()
+
     bs = int(len(lengths))
     if maxlen is None:
         if xs is None:
diff --git a/espnet/nets/pytorch_backend/rnn/attentions.py b/espnet/nets/pytorch_backend/rnn/attentions.py
index 3df28169bd9..a92a0a3c193 100644
--- a/espnet/nets/pytorch_backend/rnn/attentions.py
+++ b/espnet/nets/pytorch_backend/rnn/attentions.py
@@ -1,13 +1,12 @@
 """Attention modules for RNN."""
 
 import math
-import six
 
+import six
 import torch
 import torch.nn.functional as F
 
-from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
-from espnet.nets.pytorch_backend.nets_utils import to_device
+from espnet.nets.pytorch_backend.nets_utils import make_pad_mask, to_device
 
 
 def _apply_attention_constraint(
diff --git a/espnet/nets/pytorch_backend/rnn/decoders.py b/espnet/nets/pytorch_backend/rnn/decoders.py
index 9e7a60716d8..f248e8dc266 100644
--- a/espnet/nets/pytorch_backend/rnn/decoders.py
+++ b/espnet/nets/pytorch_backend/rnn/decoders.py
@@ -2,24 +2,22 @@
 import logging
 import math
 import random
-import six
+from argparse import Namespace
 
 import numpy as np
+import six
 import torch
 import torch.nn.functional as F
 
-from argparse import Namespace
-
-from espnet.nets.ctc_prefix_score import CTCPrefixScore
-from espnet.nets.ctc_prefix_score import CTCPrefixScoreTH
+from espnet.nets.ctc_prefix_score import CTCPrefixScore, CTCPrefixScoreTH
 from espnet.nets.e2e_asr_common import end_detect
-
+from espnet.nets.pytorch_backend.nets_utils import (
+    mask_by_length,
+    pad_list,
+    th_accuracy,
+    to_device,
+)
 from espnet.nets.pytorch_backend.rnn.attentions import att_to_numpy
-
-from espnet.nets.pytorch_backend.nets_utils import mask_by_length
-from espnet.nets.pytorch_backend.nets_utils import pad_list
-from espnet.nets.pytorch_backend.nets_utils import th_accuracy
-from espnet.nets.pytorch_backend.nets_utils import to_device
 from espnet.nets.scorer_interface import ScorerInterface
 
 MAX_DECODER_OUTPUT = 5
diff --git a/espnet/nets/pytorch_backend/rnn/encoders.py b/espnet/nets/pytorch_backend/rnn/encoders.py
index f01acd5a6a4..811bfd432c0 100644
--- a/espnet/nets/pytorch_backend/rnn/encoders.py
+++ b/espnet/nets/pytorch_backend/rnn/encoders.py
@@ -1,15 +1,13 @@
 import logging
-import six
 
 import numpy as np
+import six
 import torch
 import torch.nn.functional as F
-from torch.nn.utils.rnn import pack_padded_sequence
-from torch.nn.utils.rnn import pad_packed_sequence
+from torch.nn.utils.rnn import pack_padded_sequence, pad_packed_sequence
 
 from espnet.nets.e2e_asr_common import get_vgg2l_odim
-from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
-from espnet.nets.pytorch_backend.nets_utils import to_device
+from espnet.nets.pytorch_backend.nets_utils import make_pad_mask, to_device
 
 
 class RNNP(torch.nn.Module):
@@ -69,7 +67,8 @@ def forward(self, xs_pad, ilens, prev_state=None):
                 ilens = torch.tensor(ilens)
             xs_pack = pack_padded_sequence(xs_pad, ilens.cpu(), batch_first=True)
             rnn = getattr(self, ("birnn" if self.bidir else "rnn") + str(layer))
-            rnn.flatten_parameters()
+            if self.training:
+                rnn.flatten_parameters()
             if prev_state is not None and rnn.bidirectional:
                 prev_state = reset_backward_rnn_state(prev_state)
             ys, states = rnn(
@@ -144,7 +143,8 @@ def forward(self, xs_pad, ilens, prev_state=None):
         if not isinstance(ilens, torch.Tensor):
             ilens = torch.tensor(ilens)
         xs_pack = pack_padded_sequence(xs_pad, ilens.cpu(), batch_first=True)
-        self.nbrnn.flatten_parameters()
+        if self.training:
+            self.nbrnn.flatten_parameters()
         if prev_state is not None and self.nbrnn.bidirectional:
             # We assume that when previous state is passed,
             # it means that we're streaming the input
diff --git a/espnet/nets/pytorch_backend/tacotron2/cbhg.py b/espnet/nets/pytorch_backend/tacotron2/cbhg.py
index c869e0f8c63..24dec4da653 100644
--- a/espnet/nets/pytorch_backend/tacotron2/cbhg.py
+++ b/espnet/nets/pytorch_backend/tacotron2/cbhg.py
@@ -8,9 +8,7 @@
 
 import torch
 import torch.nn.functional as F
-
-from torch.nn.utils.rnn import pack_padded_sequence
-from torch.nn.utils.rnn import pad_packed_sequence
+from torch.nn.utils.rnn import pack_padded_sequence, pad_packed_sequence
 
 from espnet.nets.pytorch_backend.nets_utils import make_non_pad_mask
 
diff --git a/espnet/nets/pytorch_backend/tacotron2/decoder.py b/espnet/nets/pytorch_backend/tacotron2/decoder.py
index 352635ddd16..85bad0200a9 100644
--- a/espnet/nets/pytorch_backend/tacotron2/decoder.py
+++ b/espnet/nets/pytorch_backend/tacotron2/decoder.py
@@ -7,7 +7,6 @@
 """Tacotron2 decoder related modules."""
 
 import six
-
 import torch
 import torch.nn.functional as F
 
diff --git a/espnet/nets/pytorch_backend/tacotron2/encoder.py b/espnet/nets/pytorch_backend/tacotron2/encoder.py
index fee4b1c5552..0603941767b 100644
--- a/espnet/nets/pytorch_backend/tacotron2/encoder.py
+++ b/espnet/nets/pytorch_backend/tacotron2/encoder.py
@@ -7,11 +7,8 @@
 """Tacotron2 encoder related modules."""
 
 import six
-
 import torch
-
-from torch.nn.utils.rnn import pack_padded_sequence
-from torch.nn.utils.rnn import pad_packed_sequence
+from torch.nn.utils.rnn import pack_padded_sequence, pad_packed_sequence
 
 
 def encoder_init(m):
@@ -145,7 +142,7 @@ def forward(self, xs, ilens=None):
         if self.convs is not None:
             for i in six.moves.range(len(self.convs)):
                 if self.use_residual:
-                    xs += self.convs[i](xs)
+                    xs = xs + self.convs[i](xs)
                 else:
                     xs = self.convs[i](xs)
         if self.blstm is None:
diff --git a/espnet/nets/pytorch_backend/transducer/arguments.py b/espnet/nets/pytorch_backend/transducer/arguments.py
index feeaec8059f..87fdf0ad557 100644
--- a/espnet/nets/pytorch_backend/transducer/arguments.py
+++ b/espnet/nets/pytorch_backend/transducer/arguments.py
@@ -1,7 +1,7 @@
 """Transducer model arguments."""
 
-from argparse import _ArgumentGroup
 import ast
+from argparse import _ArgumentGroup
 from distutils.util import strtobool
 
 
diff --git a/espnet/nets/pytorch_backend/transducer/blocks.py b/espnet/nets/pytorch_backend/transducer/blocks.py
index 86abc21e9a8..9a44194c76b 100644
--- a/espnet/nets/pytorch_backend/transducer/blocks.py
+++ b/espnet/nets/pytorch_backend/transducer/blocks.py
@@ -1,39 +1,31 @@
 """Set of methods to create custom architecture."""
 
-from typing import Any
-from typing import Dict
-from typing import List
-from typing import Tuple
-from typing import Union
+from typing import Any, Dict, List, Tuple, Union
 
 import torch
 
 from espnet.nets.pytorch_backend.conformer.convolution import ConvolutionModule
 from espnet.nets.pytorch_backend.conformer.encoder_layer import (
-    EncoderLayer as ConformerEncoderLayer,  # noqa: H301
+    EncoderLayer as ConformerEncoderLayer,
 )
-
 from espnet.nets.pytorch_backend.nets_utils import get_activation
-
-from espnet.nets.pytorch_backend.transducer.conv1d_nets import CausalConv1d
-from espnet.nets.pytorch_backend.transducer.conv1d_nets import Conv1d
+from espnet.nets.pytorch_backend.transducer.conv1d_nets import CausalConv1d, Conv1d
 from espnet.nets.pytorch_backend.transducer.transformer_decoder_layer import (
-    TransformerDecoderLayer,  # noqa: H301
+    TransformerDecoderLayer,
 )
 from espnet.nets.pytorch_backend.transducer.vgg2l import VGG2L
-
 from espnet.nets.pytorch_backend.transformer.attention import (
-    MultiHeadedAttention,  # noqa: H301
-    RelPositionMultiHeadedAttention,  # noqa: H301
+    MultiHeadedAttention,
+    RelPositionMultiHeadedAttention,
 )
-from espnet.nets.pytorch_backend.transformer.encoder_layer import EncoderLayer
 from espnet.nets.pytorch_backend.transformer.embedding import (
-    PositionalEncoding,  # noqa: H301
-    ScaledPositionalEncoding,  # noqa: H301
-    RelPositionalEncoding,  # noqa: H301
+    PositionalEncoding,
+    RelPositionalEncoding,
+    ScaledPositionalEncoding,
 )
+from espnet.nets.pytorch_backend.transformer.encoder_layer import EncoderLayer
 from espnet.nets.pytorch_backend.transformer.positionwise_feed_forward import (
-    PositionwiseFeedForward,  # noqa: H301
+    PositionwiseFeedForward,
 )
 from espnet.nets.pytorch_backend.transformer.repeat import MultiSequential
 from espnet.nets.pytorch_backend.transformer.subsampling import Conv2dSubsampling
diff --git a/espnet/nets/pytorch_backend/transducer/conv1d_nets.py b/espnet/nets/pytorch_backend/transducer/conv1d_nets.py
index 56816e8d04d..0c71c123c88 100644
--- a/espnet/nets/pytorch_backend/transducer/conv1d_nets.py
+++ b/espnet/nets/pytorch_backend/transducer/conv1d_nets.py
@@ -1,8 +1,6 @@
 """Convolution networks definition for custom archictecture."""
 
-from typing import Optional
-from typing import Tuple
-from typing import Union
+from typing import Optional, Tuple, Union
 
 import torch
 
diff --git a/espnet/nets/pytorch_backend/transducer/custom_decoder.py b/espnet/nets/pytorch_backend/transducer/custom_decoder.py
index f5b2724ef75..023dbfd2698 100644
--- a/espnet/nets/pytorch_backend/transducer/custom_decoder.py
+++ b/espnet/nets/pytorch_backend/transducer/custom_decoder.py
@@ -1,23 +1,22 @@
 """Custom decoder definition for Transducer model."""
 
-from typing import Any
-from typing import Dict
-from typing import List
-from typing import Optional
-from typing import Tuple
-from typing import Union
+from typing import Any, Dict, List, Optional, Tuple, Union
 
 import torch
 
 from espnet.nets.pytorch_backend.transducer.blocks import build_blocks
-from espnet.nets.pytorch_backend.transducer.utils import check_batch_states
-from espnet.nets.pytorch_backend.transducer.utils import check_state
-from espnet.nets.pytorch_backend.transducer.utils import pad_sequence
+from espnet.nets.pytorch_backend.transducer.utils import (
+    check_batch_states,
+    check_state,
+    pad_sequence,
+)
 from espnet.nets.pytorch_backend.transformer.layer_norm import LayerNorm
 from espnet.nets.pytorch_backend.transformer.mask import subsequent_mask
-from espnet.nets.transducer_decoder_interface import ExtendedHypothesis
-from espnet.nets.transducer_decoder_interface import Hypothesis
-from espnet.nets.transducer_decoder_interface import TransducerDecoderInterface
+from espnet.nets.transducer_decoder_interface import (
+    ExtendedHypothesis,
+    Hypothesis,
+    TransducerDecoderInterface,
+)
 
 
 class CustomDecoder(TransducerDecoderInterface, torch.nn.Module):
diff --git a/espnet/nets/pytorch_backend/transducer/custom_encoder.py b/espnet/nets/pytorch_backend/transducer/custom_encoder.py
index 109d2071ba9..768b1a689a3 100644
--- a/espnet/nets/pytorch_backend/transducer/custom_encoder.py
+++ b/espnet/nets/pytorch_backend/transducer/custom_encoder.py
@@ -1,14 +1,11 @@
 """Cutom encoder definition for transducer models."""
 
-from typing import List
-from typing import Tuple
-from typing import Union
+from typing import List, Tuple, Union
 
 import torch
 
 from espnet.nets.pytorch_backend.transducer.blocks import build_blocks
 from espnet.nets.pytorch_backend.transducer.vgg2l import VGG2L
-
 from espnet.nets.pytorch_backend.transformer.layer_norm import LayerNorm
 from espnet.nets.pytorch_backend.transformer.subsampling import Conv2dSubsampling
 
diff --git a/espnet/nets/pytorch_backend/transducer/error_calculator.py b/espnet/nets/pytorch_backend/transducer/error_calculator.py
index 1d204770cfb..89224b62d70 100644
--- a/espnet/nets/pytorch_backend/transducer/error_calculator.py
+++ b/espnet/nets/pytorch_backend/transducer/error_calculator.py
@@ -1,8 +1,6 @@
 """CER/WER computation for Transducer model."""
 
-from typing import List
-from typing import Tuple
-from typing import Union
+from typing import List, Tuple, Union
 
 import torch
 
diff --git a/espnet/nets/pytorch_backend/transducer/initializer.py b/espnet/nets/pytorch_backend/transducer/initializer.py
index 8ae47ff471f..4ca566988b3 100644
--- a/espnet/nets/pytorch_backend/transducer/initializer.py
+++ b/espnet/nets/pytorch_backend/transducer/initializer.py
@@ -1,7 +1,7 @@
 """Parameter initialization for Transducer model."""
 
-from argparse import Namespace
 import math
+from argparse import Namespace
 
 import torch
 
diff --git a/espnet/nets/pytorch_backend/transducer/rnn_decoder.py b/espnet/nets/pytorch_backend/transducer/rnn_decoder.py
index 401cbe8f808..1c3204778ce 100644
--- a/espnet/nets/pytorch_backend/transducer/rnn_decoder.py
+++ b/espnet/nets/pytorch_backend/transducer/rnn_decoder.py
@@ -1,17 +1,14 @@
 """RNN decoder definition for Transducer model."""
 
-from typing import Any
-from typing import Dict
-from typing import List
-from typing import Optional
-from typing import Tuple
-from typing import Union
+from typing import Any, Dict, List, Optional, Tuple, Union
 
 import torch
 
-from espnet.nets.transducer_decoder_interface import ExtendedHypothesis
-from espnet.nets.transducer_decoder_interface import Hypothesis
-from espnet.nets.transducer_decoder_interface import TransducerDecoderInterface
+from espnet.nets.transducer_decoder_interface import (
+    ExtendedHypothesis,
+    Hypothesis,
+    TransducerDecoderInterface,
+)
 
 
 class RNNDecoder(TransducerDecoderInterface, torch.nn.Module):
diff --git a/espnet/nets/pytorch_backend/transducer/rnn_encoder.py b/espnet/nets/pytorch_backend/transducer/rnn_encoder.py
index 3fe6a783710..f1bafef33c3 100644
--- a/espnet/nets/pytorch_backend/transducer/rnn_encoder.py
+++ b/espnet/nets/pytorch_backend/transducer/rnn_encoder.py
@@ -9,20 +9,15 @@
 """
 
 from argparse import Namespace
-from typing import List
-from typing import Optional
-from typing import Tuple
-from typing import Union
+from typing import List, Optional, Tuple, Union
 
 import numpy as np
 import torch
 import torch.nn.functional as F
-from torch.nn.utils.rnn import pack_padded_sequence
-from torch.nn.utils.rnn import pad_packed_sequence
+from torch.nn.utils.rnn import pack_padded_sequence, pad_packed_sequence
 
 from espnet.nets.e2e_asr_common import get_vgg2l_odim
-from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
-from espnet.nets.pytorch_backend.nets_utils import to_device
+from espnet.nets.pytorch_backend.nets_utils import make_pad_mask, to_device
 
 
 class RNNP(torch.nn.Module):
diff --git a/espnet/nets/pytorch_backend/transducer/transducer_tasks.py b/espnet/nets/pytorch_backend/transducer/transducer_tasks.py
index 79dc614bca6..70f8ada93c3 100644
--- a/espnet/nets/pytorch_backend/transducer/transducer_tasks.py
+++ b/espnet/nets/pytorch_backend/transducer/transducer_tasks.py
@@ -1,17 +1,14 @@
 """Module implementing Transducer main and auxiliary tasks."""
 
-from typing import Any
-from typing import List
-from typing import Optional
-from typing import Tuple
+from typing import Any, List, Optional, Tuple
 
 import torch
 
 from espnet.nets.pytorch_backend.nets_utils import pad_list
-from espnet.nets.pytorch_backend.transformer.label_smoothing_loss import (
-    LabelSmoothingLoss,  # noqa: H301
-)
 from espnet.nets.pytorch_backend.transducer.joint_network import JointNetwork
+from espnet.nets.pytorch_backend.transformer.label_smoothing_loss import (  # noqa: H301
+    LabelSmoothingLoss,
+)
 
 
 class TransducerTasks(torch.nn.Module):
diff --git a/espnet/nets/pytorch_backend/transducer/transformer_decoder_layer.py b/espnet/nets/pytorch_backend/transducer/transformer_decoder_layer.py
index 9aecce54e0c..75ceee26e70 100644
--- a/espnet/nets/pytorch_backend/transducer/transformer_decoder_layer.py
+++ b/espnet/nets/pytorch_backend/transducer/transformer_decoder_layer.py
@@ -7,7 +7,7 @@
 from espnet.nets.pytorch_backend.transformer.attention import MultiHeadedAttention
 from espnet.nets.pytorch_backend.transformer.layer_norm import LayerNorm
 from espnet.nets.pytorch_backend.transformer.positionwise_feed_forward import (
-    PositionwiseFeedForward,  # noqa: H301
+    PositionwiseFeedForward,
 )
 
 
diff --git a/espnet/nets/pytorch_backend/transducer/utils.py b/espnet/nets/pytorch_backend/transducer/utils.py
index d8bf3bfe336..29cad938c36 100644
--- a/espnet/nets/pytorch_backend/transducer/utils.py
+++ b/espnet/nets/pytorch_backend/transducer/utils.py
@@ -1,18 +1,13 @@
 """Utility functions for Transducer models."""
 
 import os
-from typing import Any
-from typing import Dict
-from typing import List
-from typing import Optional
-from typing import Union
+from typing import Any, Dict, List, Optional, Union
 
 import numpy as np
 import torch
 
 from espnet.nets.pytorch_backend.nets_utils import pad_list
-from espnet.nets.transducer_decoder_interface import ExtendedHypothesis
-from espnet.nets.transducer_decoder_interface import Hypothesis
+from espnet.nets.transducer_decoder_interface import ExtendedHypothesis, Hypothesis
 
 
 def get_decoder_input(
diff --git a/espnet/nets/pytorch_backend/transducer/vgg2l.py b/espnet/nets/pytorch_backend/transducer/vgg2l.py
index c7eecd23281..fb45d0b5a78 100644
--- a/espnet/nets/pytorch_backend/transducer/vgg2l.py
+++ b/espnet/nets/pytorch_backend/transducer/vgg2l.py
@@ -1,7 +1,6 @@
 """VGG2L module definition for custom encoder."""
 
-from typing import Tuple
-from typing import Union
+from typing import Tuple, Union
 
 import torch
 
diff --git a/espnet/nets/pytorch_backend/transformer/contextual_block_encoder_layer.py b/espnet/nets/pytorch_backend/transformer/contextual_block_encoder_layer.py
index 16957e99820..cc1f13c512f 100644
--- a/espnet/nets/pytorch_backend/transformer/contextual_block_encoder_layer.py
+++ b/espnet/nets/pytorch_backend/transformer/contextual_block_encoder_layer.py
@@ -7,7 +7,6 @@
 """Encoder self-attention layer definition."""
 
 import torch
-
 from torch import nn
 
 from espnet.nets.pytorch_backend.transformer.layer_norm import LayerNorm
diff --git a/espnet/nets/pytorch_backend/transformer/decoder.py b/espnet/nets/pytorch_backend/transformer/decoder.py
index 5236632665c..2c5c5dabc9e 100644
--- a/espnet/nets/pytorch_backend/transformer/decoder.py
+++ b/espnet/nets/pytorch_backend/transformer/decoder.py
@@ -7,10 +7,7 @@
 """Decoder definition."""
 
 import logging
-
-from typing import Any
-from typing import List
-from typing import Tuple
+from typing import Any, List, Tuple
 
 import torch
 
@@ -25,7 +22,7 @@
 from espnet.nets.pytorch_backend.transformer.lightconv2d import LightweightConvolution2D
 from espnet.nets.pytorch_backend.transformer.mask import subsequent_mask
 from espnet.nets.pytorch_backend.transformer.positionwise_feed_forward import (
-    PositionwiseFeedForward,  # noqa: H301
+    PositionwiseFeedForward,
 )
 from espnet.nets.pytorch_backend.transformer.repeat import repeat
 from espnet.nets.scorer_interface import BatchScorerInterface
diff --git a/espnet/nets/pytorch_backend/transformer/dynamic_conv.py b/espnet/nets/pytorch_backend/transformer/dynamic_conv.py
index 8a2a0c1eaf0..f254d41e520 100644
--- a/espnet/nets/pytorch_backend/transformer/dynamic_conv.py
+++ b/espnet/nets/pytorch_backend/transformer/dynamic_conv.py
@@ -2,9 +2,8 @@
 
 import numpy
 import torch
-from torch import nn
 import torch.nn.functional as F
-
+from torch import nn
 
 MIN_VALUE = float(numpy.finfo(numpy.float32).min)
 
diff --git a/espnet/nets/pytorch_backend/transformer/dynamic_conv2d.py b/espnet/nets/pytorch_backend/transformer/dynamic_conv2d.py
index f8a4dd6e9f6..401c61d4009 100644
--- a/espnet/nets/pytorch_backend/transformer/dynamic_conv2d.py
+++ b/espnet/nets/pytorch_backend/transformer/dynamic_conv2d.py
@@ -2,9 +2,8 @@
 
 import numpy
 import torch
-from torch import nn
 import torch.nn.functional as F
-
+from torch import nn
 
 MIN_VALUE = float(numpy.finfo(numpy.float32).min)
 
diff --git a/espnet/nets/pytorch_backend/transformer/embedding.py b/espnet/nets/pytorch_backend/transformer/embedding.py
index 17a39fddec4..7021aa39eff 100644
--- a/espnet/nets/pytorch_backend/transformer/embedding.py
+++ b/espnet/nets/pytorch_backend/transformer/embedding.py
@@ -7,6 +7,7 @@
 """Positional Encoding Module."""
 
 import math
+
 import torch
 
 
diff --git a/espnet/nets/pytorch_backend/transformer/encoder.py b/espnet/nets/pytorch_backend/transformer/encoder.py
index 508bf1aa7a7..cff10831f16 100644
--- a/espnet/nets/pytorch_backend/transformer/encoder.py
+++ b/espnet/nets/pytorch_backend/transformer/encoder.py
@@ -4,6 +4,7 @@
 """Encoder definition."""
 
 import logging
+
 import torch
 
 from espnet.nets.pytorch_backend.nets_utils import rename_state_dict
@@ -16,15 +17,19 @@
 from espnet.nets.pytorch_backend.transformer.layer_norm import LayerNorm
 from espnet.nets.pytorch_backend.transformer.lightconv import LightweightConvolution
 from espnet.nets.pytorch_backend.transformer.lightconv2d import LightweightConvolution2D
-from espnet.nets.pytorch_backend.transformer.multi_layer_conv import Conv1dLinear
-from espnet.nets.pytorch_backend.transformer.multi_layer_conv import MultiLayeredConv1d
+from espnet.nets.pytorch_backend.transformer.multi_layer_conv import (
+    Conv1dLinear,
+    MultiLayeredConv1d,
+)
 from espnet.nets.pytorch_backend.transformer.positionwise_feed_forward import (
-    PositionwiseFeedForward,  # noqa: H301
+    PositionwiseFeedForward,
 )
 from espnet.nets.pytorch_backend.transformer.repeat import repeat
-from espnet.nets.pytorch_backend.transformer.subsampling import Conv2dSubsampling
-from espnet.nets.pytorch_backend.transformer.subsampling import Conv2dSubsampling6
-from espnet.nets.pytorch_backend.transformer.subsampling import Conv2dSubsampling8
+from espnet.nets.pytorch_backend.transformer.subsampling import (
+    Conv2dSubsampling,
+    Conv2dSubsampling6,
+    Conv2dSubsampling8,
+)
 
 
 def _pre_hook(
diff --git a/espnet/nets/pytorch_backend/transformer/encoder_layer.py b/espnet/nets/pytorch_backend/transformer/encoder_layer.py
index 863aa6730b3..1554cb4de3f 100644
--- a/espnet/nets/pytorch_backend/transformer/encoder_layer.py
+++ b/espnet/nets/pytorch_backend/transformer/encoder_layer.py
@@ -7,7 +7,6 @@
 """Encoder self-attention layer definition."""
 
 import torch
-
 from torch import nn
 
 from espnet.nets.pytorch_backend.transformer.layer_norm import LayerNorm
diff --git a/espnet/nets/pytorch_backend/transformer/lightconv.py b/espnet/nets/pytorch_backend/transformer/lightconv.py
index b249402591e..1f3c2b89180 100644
--- a/espnet/nets/pytorch_backend/transformer/lightconv.py
+++ b/espnet/nets/pytorch_backend/transformer/lightconv.py
@@ -2,9 +2,8 @@
 
 import numpy
 import torch
-from torch import nn
 import torch.nn.functional as F
-
+from torch import nn
 
 MIN_VALUE = float(numpy.finfo(numpy.float32).min)
 
diff --git a/espnet/nets/pytorch_backend/transformer/lightconv2d.py b/espnet/nets/pytorch_backend/transformer/lightconv2d.py
index 294d23244e4..e7e52241134 100644
--- a/espnet/nets/pytorch_backend/transformer/lightconv2d.py
+++ b/espnet/nets/pytorch_backend/transformer/lightconv2d.py
@@ -2,9 +2,8 @@
 
 import numpy
 import torch
-from torch import nn
 import torch.nn.functional as F
-
+from torch import nn
 
 MIN_VALUE = float(numpy.finfo(numpy.float32).min)
 
diff --git a/espnet/nets/pytorch_backend/transformer/longformer_attention.py b/espnet/nets/pytorch_backend/transformer/longformer_attention.py
index 82a54c801d1..1610b6ab594 100644
--- a/espnet/nets/pytorch_backend/transformer/longformer_attention.py
+++ b/espnet/nets/pytorch_backend/transformer/longformer_attention.py
@@ -6,8 +6,7 @@
 
 """Longformer based Local Attention Definition."""
 
-from longformer.longformer import LongformerConfig
-from longformer.longformer import LongformerSelfAttention
+from longformer.longformer import LongformerConfig, LongformerSelfAttention
 from torch import nn
 
 
diff --git a/espnet/nets/pytorch_backend/transformer/plot.py b/espnet/nets/pytorch_backend/transformer/plot.py
index 5946de6cd56..e7a1746e823 100644
--- a/espnet/nets/pytorch_backend/transformer/plot.py
+++ b/espnet/nets/pytorch_backend/transformer/plot.py
@@ -2,9 +2,9 @@
 #  Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
 
 import logging
+import os
 
 import numpy
-import os
 
 from espnet.asr import asr_utils
 
diff --git a/espnet/nets/pytorch_backend/transformer/subsampling.py b/espnet/nets/pytorch_backend/transformer/subsampling.py
index a69bc09445f..f91d2906416 100644
--- a/espnet/nets/pytorch_backend/transformer/subsampling.py
+++ b/espnet/nets/pytorch_backend/transformer/subsampling.py
@@ -30,8 +30,8 @@ def __init__(self, message, actual_size, limit):
 
 def check_short_utt(ins, size):
     """Check if the utterance is too short for subsampling."""
-    if isinstance(ins, Conv2dSubsampling2) and size < 3:
-        return True, 3
+    if isinstance(ins, Conv2dSubsampling2) and size < 7:
+        return True, 7
     if isinstance(ins, Conv2dSubsampling) and size < 7:
         return True, 7
     if isinstance(ins, Conv2dSubsampling6) and size < 11:
diff --git a/espnet/nets/pytorch_backend/transformer/subsampling_without_posenc.py b/espnet/nets/pytorch_backend/transformer/subsampling_without_posenc.py
index 239d3f1ade7..1a188c48d95 100644
--- a/espnet/nets/pytorch_backend/transformer/subsampling_without_posenc.py
+++ b/espnet/nets/pytorch_backend/transformer/subsampling_without_posenc.py
@@ -4,6 +4,7 @@
 """Subsampling layer definition."""
 
 import math
+
 import torch
 
 
diff --git a/espnet/nets/pytorch_backend/wavenet.py b/espnet/nets/pytorch_backend/wavenet.py
index 0539518342c..5fb8124e985 100644
--- a/espnet/nets/pytorch_backend/wavenet.py
+++ b/espnet/nets/pytorch_backend/wavenet.py
@@ -12,7 +12,6 @@
 import numpy as np
 import torch
 import torch.nn.functional as F
-
 from torch import nn
 
 
diff --git a/espnet/nets/scorer_interface.py b/espnet/nets/scorer_interface.py
index 946ec6be317..fb3a09fa676 100644
--- a/espnet/nets/scorer_interface.py
+++ b/espnet/nets/scorer_interface.py
@@ -1,11 +1,9 @@
 """Scorer interface module."""
 
-from typing import Any
-from typing import List
-from typing import Tuple
+import warnings
+from typing import Any, List, Tuple
 
 import torch
-import warnings
 
 
 class ScorerInterface:
diff --git a/espnet/nets/scorers/ctc.py b/espnet/nets/scorers/ctc.py
index 1d12ce6e2a2..74c3385ff02 100644
--- a/espnet/nets/scorers/ctc.py
+++ b/espnet/nets/scorers/ctc.py
@@ -3,8 +3,7 @@
 import numpy as np
 import torch
 
-from espnet.nets.ctc_prefix_score import CTCPrefixScore
-from espnet.nets.ctc_prefix_score import CTCPrefixScoreTH
+from espnet.nets.ctc_prefix_score import CTCPrefixScore, CTCPrefixScoreTH
 from espnet.nets.scorer_interface import BatchPartialScorerInterface
 
 
diff --git a/espnet/nets/scorers/length_bonus.py b/espnet/nets/scorers/length_bonus.py
index fe32a616211..490ea84db4c 100644
--- a/espnet/nets/scorers/length_bonus.py
+++ b/espnet/nets/scorers/length_bonus.py
@@ -1,7 +1,5 @@
 """Length bonus module."""
-from typing import Any
-from typing import List
-from typing import Tuple
+from typing import Any, List, Tuple
 
 import torch
 
diff --git a/espnet/nets/scorers/ngram.py b/espnet/nets/scorers/ngram.py
index 61ed70efdb0..f599d00b280 100644
--- a/espnet/nets/scorers/ngram.py
+++ b/espnet/nets/scorers/ngram.py
@@ -5,8 +5,7 @@
 import kenlm
 import torch
 
-from espnet.nets.scorer_interface import BatchScorerInterface
-from espnet.nets.scorer_interface import PartialScorerInterface
+from espnet.nets.scorer_interface import BatchScorerInterface, PartialScorerInterface
 
 
 class Ngrambase(ABC):
diff --git a/espnet/nets/transducer_decoder_interface.py b/espnet/nets/transducer_decoder_interface.py
index eb3ab318dcc..4c723346b50 100644
--- a/espnet/nets/transducer_decoder_interface.py
+++ b/espnet/nets/transducer_decoder_interface.py
@@ -1,12 +1,7 @@
 """Transducer decoder interface module."""
 
 from dataclasses import dataclass
-from typing import Any
-from typing import Dict
-from typing import List
-from typing import Optional
-from typing import Tuple
-from typing import Union
+from typing import Any, Dict, List, Optional, Tuple, Union
 
 import torch
 
diff --git a/espnet/nets/tts_interface.py b/espnet/nets/tts_interface.py
index 587d7279237..6ce0d6e6e68 100644
--- a/espnet/nets/tts_interface.py
+++ b/espnet/nets/tts_interface.py
@@ -7,7 +7,6 @@
 
 from espnet.asr.asr_utils import torch_load
 
-
 try:
     import chainer
 except ImportError:
diff --git a/espnet/optimizer/chainer.py b/espnet/optimizer/chainer.py
index 0fb6f4b3fab..de58767dcb1 100644
--- a/espnet/optimizer/chainer.py
+++ b/espnet/optimizer/chainer.py
@@ -5,9 +5,7 @@
 from chainer.optimizer_hooks import WeightDecay
 
 from espnet.optimizer.factory import OptimizerFactoryInterface
-from espnet.optimizer.parser import adadelta
-from espnet.optimizer.parser import adam
-from espnet.optimizer.parser import sgd
+from espnet.optimizer.parser import adadelta, adam, sgd
 
 
 class AdamFactory(OptimizerFactoryInterface):
diff --git a/espnet/optimizer/pytorch.py b/espnet/optimizer/pytorch.py
index 7914e36b999..946bdf58eba 100644
--- a/espnet/optimizer/pytorch.py
+++ b/espnet/optimizer/pytorch.py
@@ -4,9 +4,7 @@
 import torch
 
 from espnet.optimizer.factory import OptimizerFactoryInterface
-from espnet.optimizer.parser import adadelta
-from espnet.optimizer.parser import adam
-from espnet.optimizer.parser import sgd
+from espnet.optimizer.parser import adadelta, adam, sgd
 
 
 class AdamFactory(OptimizerFactoryInterface):
diff --git a/espnet/st/pytorch_backend/st.py b/espnet/st/pytorch_backend/st.py
index 1a56930dcd3..e815efe7251 100644
--- a/espnet/st/pytorch_backend/st.py
+++ b/espnet/st/pytorch_backend/st.py
@@ -8,39 +8,35 @@
 import logging
 import os
 
-from chainer import training
-from chainer.training import extensions
 import numpy as np
 import torch
+from chainer import training
+from chainer.training import extensions
 
-from espnet.asr.asr_utils import adadelta_eps_decay
-from espnet.asr.asr_utils import adam_lr_decay
-from espnet.asr.asr_utils import add_results_to_json
-from espnet.asr.asr_utils import CompareValueTrigger
-from espnet.asr.asr_utils import restore_snapshot
-from espnet.asr.asr_utils import snapshot_object
-from espnet.asr.asr_utils import torch_load
-from espnet.asr.asr_utils import torch_resume
-from espnet.asr.asr_utils import torch_snapshot
-from espnet.asr.pytorch_backend.asr_init import load_trained_model
-from espnet.asr.pytorch_backend.asr_init import load_trained_modules
-
+from espnet.asr.asr_utils import (
+    CompareValueTrigger,
+    adadelta_eps_decay,
+    adam_lr_decay,
+    add_results_to_json,
+    restore_snapshot,
+    snapshot_object,
+    torch_load,
+    torch_resume,
+    torch_snapshot,
+)
+from espnet.asr.pytorch_backend.asr import CustomConverter as ASRCustomConverter
+from espnet.asr.pytorch_backend.asr import CustomEvaluator, CustomUpdater
+from espnet.asr.pytorch_backend.asr_init import load_trained_model, load_trained_modules
 from espnet.nets.pytorch_backend.e2e_asr import pad_list
 from espnet.nets.st_interface import STInterface
-from espnet.utils.dataset import ChainerDataLoader
-from espnet.utils.dataset import TransformDataset
+from espnet.utils.dataset import ChainerDataLoader, TransformDataset
 from espnet.utils.deterministic_utils import set_deterministic_pytorch
 from espnet.utils.dynamic_import import dynamic_import
 from espnet.utils.io_utils import LoadInputsAndTargets
 from espnet.utils.training.batchfy import make_batchset
 from espnet.utils.training.iterators import ShufflingEnabler
 from espnet.utils.training.tensorboard_logger import TensorboardLogger
-from espnet.utils.training.train_utils import check_early_stop
-from espnet.utils.training.train_utils import set_early_stop
-
-from espnet.asr.pytorch_backend.asr import CustomConverter as ASRCustomConverter
-from espnet.asr.pytorch_backend.asr import CustomEvaluator
-from espnet.asr.pytorch_backend.asr import CustomUpdater
+from espnet.utils.training.train_utils import check_early_stop, set_early_stop
 
 
 class CustomConverter(ASRCustomConverter):
diff --git a/espnet/transform/transformation.py b/espnet/transform/transformation.py
index 1a043b00be4..201117bb61c 100644
--- a/espnet/transform/transformation.py
+++ b/espnet/transform/transformation.py
@@ -1,16 +1,15 @@
 """Transformation module."""
-from collections.abc import Sequence
-from collections import OrderedDict
 import copy
-from inspect import signature
 import io
 import logging
+from collections import OrderedDict
+from collections.abc import Sequence
+from inspect import signature
 
 import yaml
 
 from espnet.utils.dynamic_import import dynamic_import
 
-
 # TODO(karita): inherit TransformInterface
 # TODO(karita): register cmd arguments in asr_train.py
 import_alias = dict(
diff --git a/espnet/tts/pytorch_backend/tts.py b/espnet/tts/pytorch_backend/tts.py
index 09c45479a48..e959e74586b 100644
--- a/espnet/tts/pytorch_backend/tts.py
+++ b/espnet/tts/pytorch_backend/tts.py
@@ -17,32 +17,28 @@
 import kaldiio
 import numpy as np
 import torch
-
 from chainer import training
 from chainer.training import extensions
 
-from espnet.asr.asr_utils import get_model_conf
-from espnet.asr.asr_utils import snapshot_object
-from espnet.asr.asr_utils import torch_load
-from espnet.asr.asr_utils import torch_resume
-from espnet.asr.asr_utils import torch_snapshot
+from espnet.asr.asr_utils import (
+    get_model_conf,
+    snapshot_object,
+    torch_load,
+    torch_resume,
+    torch_snapshot,
+)
 from espnet.asr.pytorch_backend.asr_init import load_trained_modules
 from espnet.nets.pytorch_backend.nets_utils import pad_list
 from espnet.nets.tts_interface import TTSInterface
-from espnet.utils.dataset import ChainerDataLoader
-from espnet.utils.dataset import TransformDataset
+from espnet.utils.dataset import ChainerDataLoader, TransformDataset
+from espnet.utils.deterministic_utils import set_deterministic_pytorch
 from espnet.utils.dynamic_import import dynamic_import
 from espnet.utils.io_utils import LoadInputsAndTargets
 from espnet.utils.training.batchfy import make_batchset
 from espnet.utils.training.evaluator import BaseEvaluator
-
-from espnet.utils.deterministic_utils import set_deterministic_pytorch
-from espnet.utils.training.train_utils import check_early_stop
-from espnet.utils.training.train_utils import set_early_stop
-
 from espnet.utils.training.iterators import ShufflingEnabler
-
 from espnet.utils.training.tensorboard_logger import TensorboardLogger
+from espnet.utils.training.train_utils import check_early_stop, set_early_stop
 
 
 class CustomEvaluator(BaseEvaluator):
diff --git a/espnet/utils/cli_utils.py b/espnet/utils/cli_utils.py
index c4a4cd15b72..6b7fce6c924 100644
--- a/espnet/utils/cli_utils.py
+++ b/espnet/utils/cli_utils.py
@@ -1,6 +1,6 @@
+import sys
 from collections.abc import Sequence
 from distutils.util import strtobool as dist_strtobool
-import sys
 
 import numpy
 
diff --git a/espnet/utils/io_utils.py b/espnet/utils/io_utils.py
index 6a642796c43..0df663efd02 100644
--- a/espnet/utils/io_utils.py
+++ b/espnet/utils/io_utils.py
@@ -1,7 +1,7 @@
-from collections import OrderedDict
 import io
 import logging
 import os
+from collections import OrderedDict
 
 import h5py
 import kaldiio
diff --git a/espnet/utils/training/iterators.py b/espnet/utils/training/iterators.py
index 1cabb1f1fa8..76b31832d45 100644
--- a/espnet/utils/training/iterators.py
+++ b/espnet/utils/training/iterators.py
@@ -1,10 +1,7 @@
 import chainer
-from chainer.iterators import MultiprocessIterator
-from chainer.iterators import SerialIterator
-from chainer.iterators import ShuffleOrderSampler
-from chainer.training.extension import Extension
-
 import numpy as np
+from chainer.iterators import MultiprocessIterator, SerialIterator, ShuffleOrderSampler
+from chainer.training.extension import Extension
 
 
 class ShufflingEnabler(Extension):
diff --git a/espnet/utils/training/train_utils.py b/espnet/utils/training/train_utils.py
index 38f7cd4feb6..9e8b4fbbc52 100644
--- a/espnet/utils/training/train_utils.py
+++ b/espnet/utils/training/train_utils.py
@@ -1,6 +1,7 @@
-import chainer
 import logging
 
+import chainer
+
 
 def check_early_stop(trainer, epochs):
     """Checks an early stopping trigger and warns the user if it's the case
diff --git a/espnet/vc/pytorch_backend/vc.py b/espnet/vc/pytorch_backend/vc.py
index bfa3b0d11f3..b055d1bc84a 100644
--- a/espnet/vc/pytorch_backend/vc.py
+++ b/espnet/vc/pytorch_backend/vc.py
@@ -17,32 +17,28 @@
 import kaldiio
 import numpy as np
 import torch
-
 from chainer import training
 from chainer.training import extensions
 
-from espnet.asr.asr_utils import get_model_conf
-from espnet.asr.asr_utils import snapshot_object
-from espnet.asr.asr_utils import torch_load
-from espnet.asr.asr_utils import torch_resume
-from espnet.asr.asr_utils import torch_snapshot
+from espnet.asr.asr_utils import (
+    get_model_conf,
+    snapshot_object,
+    torch_load,
+    torch_resume,
+    torch_snapshot,
+)
 from espnet.asr.pytorch_backend.asr_init import load_trained_modules
 from espnet.nets.pytorch_backend.nets_utils import pad_list
 from espnet.nets.tts_interface import TTSInterface
-from espnet.utils.dataset import ChainerDataLoader
-from espnet.utils.dataset import TransformDataset
+from espnet.utils.dataset import ChainerDataLoader, TransformDataset
+from espnet.utils.deterministic_utils import set_deterministic_pytorch
 from espnet.utils.dynamic_import import dynamic_import
 from espnet.utils.io_utils import LoadInputsAndTargets
 from espnet.utils.training.batchfy import make_batchset
 from espnet.utils.training.evaluator import BaseEvaluator
-
-from espnet.utils.deterministic_utils import set_deterministic_pytorch
-from espnet.utils.training.train_utils import check_early_stop
-from espnet.utils.training.train_utils import set_early_stop
-
 from espnet.utils.training.iterators import ShufflingEnabler
-
 from espnet.utils.training.tensorboard_logger import TensorboardLogger
+from espnet.utils.training.train_utils import check_early_stop, set_early_stop
 
 
 class CustomEvaluator(BaseEvaluator):
diff --git a/espnet2/asr/decoder/abs_decoder.py b/espnet2/asr/decoder/abs_decoder.py
index 4ad18d5e368..e46d1c24fcb 100644
--- a/espnet2/asr/decoder/abs_decoder.py
+++ b/espnet2/asr/decoder/abs_decoder.py
@@ -1,5 +1,4 @@
-from abc import ABC
-from abc import abstractmethod
+from abc import ABC, abstractmethod
 from typing import Tuple
 
 import torch
diff --git a/espnet2/asr/decoder/mlm_decoder.py b/espnet2/asr/decoder/mlm_decoder.py
index 85cd1d3757f..17719c39074 100644
--- a/espnet2/asr/decoder/mlm_decoder.py
+++ b/espnet2/asr/decoder/mlm_decoder.py
@@ -7,16 +7,16 @@
 import torch
 from typeguard import check_argument_types
 
+from espnet2.asr.decoder.abs_decoder import AbsDecoder
 from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
 from espnet.nets.pytorch_backend.transformer.attention import MultiHeadedAttention
 from espnet.nets.pytorch_backend.transformer.decoder_layer import DecoderLayer
 from espnet.nets.pytorch_backend.transformer.embedding import PositionalEncoding
 from espnet.nets.pytorch_backend.transformer.layer_norm import LayerNorm
 from espnet.nets.pytorch_backend.transformer.positionwise_feed_forward import (
-    PositionwiseFeedForward,  # noqa: H301
+    PositionwiseFeedForward,
 )
 from espnet.nets.pytorch_backend.transformer.repeat import repeat
-from espnet2.asr.decoder.abs_decoder import AbsDecoder
 
 
 class MLMDecoder(AbsDecoder):
diff --git a/espnet2/asr/decoder/rnn_decoder.py b/espnet2/asr/decoder/rnn_decoder.py
index fc938225f35..3e5ad002493 100644
--- a/espnet2/asr/decoder/rnn_decoder.py
+++ b/espnet2/asr/decoder/rnn_decoder.py
@@ -5,11 +5,10 @@
 import torch.nn.functional as F
 from typeguard import check_argument_types
 
-from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
-from espnet.nets.pytorch_backend.nets_utils import to_device
-from espnet.nets.pytorch_backend.rnn.attentions import initial_att
 from espnet2.asr.decoder.abs_decoder import AbsDecoder
 from espnet2.utils.get_default_kwargs import get_default_kwargs
+from espnet.nets.pytorch_backend.nets_utils import make_pad_mask, to_device
+from espnet.nets.pytorch_backend.rnn.attentions import initial_att
 
 
 def build_attention_list(
diff --git a/espnet2/asr/decoder/transformer_decoder.py b/espnet2/asr/decoder/transformer_decoder.py
index 1bd74cb76c1..ec3edbcb4d5 100644
--- a/espnet2/asr/decoder/transformer_decoder.py
+++ b/espnet2/asr/decoder/transformer_decoder.py
@@ -2,14 +2,12 @@
 #  Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
 
 """Decoder definition."""
-from typing import Any
-from typing import List
-from typing import Sequence
-from typing import Tuple
+from typing import Any, List, Sequence, Tuple
 
 import torch
 from typeguard import check_argument_types
 
+from espnet2.asr.decoder.abs_decoder import AbsDecoder
 from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
 from espnet.nets.pytorch_backend.transformer.attention import MultiHeadedAttention
 from espnet.nets.pytorch_backend.transformer.decoder_layer import DecoderLayer
@@ -21,11 +19,10 @@
 from espnet.nets.pytorch_backend.transformer.lightconv2d import LightweightConvolution2D
 from espnet.nets.pytorch_backend.transformer.mask import subsequent_mask
 from espnet.nets.pytorch_backend.transformer.positionwise_feed_forward import (
-    PositionwiseFeedForward,  # noqa: H301
+    PositionwiseFeedForward,
 )
 from espnet.nets.pytorch_backend.transformer.repeat import repeat
 from espnet.nets.scorer_interface import BatchScorerInterface
-from espnet2.asr.decoder.abs_decoder import AbsDecoder
 
 
 class BaseTransformerDecoder(AbsDecoder, BatchScorerInterface):
diff --git a/espnet2/asr/encoder/abs_encoder.py b/espnet2/asr/encoder/abs_encoder.py
index 1fb7c97c35b..22a1a103458 100644
--- a/espnet2/asr/encoder/abs_encoder.py
+++ b/espnet2/asr/encoder/abs_encoder.py
@@ -1,7 +1,5 @@
-from abc import ABC
-from abc import abstractmethod
-from typing import Optional
-from typing import Tuple
+from abc import ABC, abstractmethod
+from typing import Optional, Tuple
 
 import torch
 
diff --git a/espnet2/asr/encoder/conformer_encoder.py b/espnet2/asr/encoder/conformer_encoder.py
index c0c3d92fd1c..e2f79092db8 100644
--- a/espnet2/asr/encoder/conformer_encoder.py
+++ b/espnet2/asr/encoder/conformer_encoder.py
@@ -3,46 +3,45 @@
 
 """Conformer encoder definition."""
 
-from typing import List
-from typing import Optional
-from typing import Tuple
-from typing import Union
-
 import logging
-import torch
+from typing import List, Optional, Tuple, Union
 
+import torch
 from typeguard import check_argument_types
 
+from espnet2.asr.ctc import CTC
+from espnet2.asr.encoder.abs_encoder import AbsEncoder
 from espnet.nets.pytorch_backend.conformer.convolution import ConvolutionModule
 from espnet.nets.pytorch_backend.conformer.encoder_layer import EncoderLayer
-from espnet.nets.pytorch_backend.nets_utils import get_activation
-from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
+from espnet.nets.pytorch_backend.nets_utils import get_activation, make_pad_mask
 from espnet.nets.pytorch_backend.transformer.attention import (
-    MultiHeadedAttention,  # noqa: H301
-    RelPositionMultiHeadedAttention,  # noqa: H301
-    LegacyRelPositionMultiHeadedAttention,  # noqa: H301
+    LegacyRelPositionMultiHeadedAttention,
+    MultiHeadedAttention,
+    RelPositionMultiHeadedAttention,
 )
 from espnet.nets.pytorch_backend.transformer.embedding import (
-    PositionalEncoding,  # noqa: H301
-    ScaledPositionalEncoding,  # noqa: H301
-    RelPositionalEncoding,  # noqa: H301
-    LegacyRelPositionalEncoding,  # noqa: H301
+    LegacyRelPositionalEncoding,
+    PositionalEncoding,
+    RelPositionalEncoding,
+    ScaledPositionalEncoding,
 )
 from espnet.nets.pytorch_backend.transformer.layer_norm import LayerNorm
-from espnet.nets.pytorch_backend.transformer.multi_layer_conv import Conv1dLinear
-from espnet.nets.pytorch_backend.transformer.multi_layer_conv import MultiLayeredConv1d
+from espnet.nets.pytorch_backend.transformer.multi_layer_conv import (
+    Conv1dLinear,
+    MultiLayeredConv1d,
+)
 from espnet.nets.pytorch_backend.transformer.positionwise_feed_forward import (
-    PositionwiseFeedForward,  # noqa: H301
+    PositionwiseFeedForward,
 )
 from espnet.nets.pytorch_backend.transformer.repeat import repeat
-from espnet.nets.pytorch_backend.transformer.subsampling import check_short_utt
-from espnet.nets.pytorch_backend.transformer.subsampling import Conv2dSubsampling
-from espnet.nets.pytorch_backend.transformer.subsampling import Conv2dSubsampling2
-from espnet.nets.pytorch_backend.transformer.subsampling import Conv2dSubsampling6
-from espnet.nets.pytorch_backend.transformer.subsampling import Conv2dSubsampling8
-from espnet.nets.pytorch_backend.transformer.subsampling import TooShortUttError
-from espnet2.asr.ctc import CTC
-from espnet2.asr.encoder.abs_encoder import AbsEncoder
+from espnet.nets.pytorch_backend.transformer.subsampling import (
+    Conv2dSubsampling,
+    Conv2dSubsampling2,
+    Conv2dSubsampling6,
+    Conv2dSubsampling8,
+    TooShortUttError,
+    check_short_utt,
+)
 
 
 class ConformerEncoder(AbsEncoder):
diff --git a/espnet2/asr/encoder/contextual_block_conformer_encoder.py b/espnet2/asr/encoder/contextual_block_conformer_encoder.py
index 7152e34d44a..4ef134e039c 100644
--- a/espnet2/asr/encoder/contextual_block_conformer_encoder.py
+++ b/espnet2/asr/encoder/contextual_block_conformer_encoder.py
@@ -5,33 +5,31 @@
 @author: Keqi Deng (UCAS)
 """
 
-from espnet.nets.pytorch_backend.conformer.convolution import ConvolutionModule
+import math
+from typing import Optional, Tuple
+
+import torch
+from typeguard import check_argument_types
+
+from espnet2.asr.encoder.abs_encoder import AbsEncoder
 from espnet.nets.pytorch_backend.conformer.contextual_block_encoder_layer import (
-    ContextualBlockEncoderLayer,  # noqa: H301
-)
-from espnet.nets.pytorch_backend.nets_utils import (
-    make_pad_mask,  # noqa: H301
-    get_activation,  # noqa: H301
+    ContextualBlockEncoderLayer,
 )
+from espnet.nets.pytorch_backend.conformer.convolution import ConvolutionModule
+from espnet.nets.pytorch_backend.nets_utils import get_activation, make_pad_mask
 from espnet.nets.pytorch_backend.transformer.attention import MultiHeadedAttention
 from espnet.nets.pytorch_backend.transformer.embedding import StreamPositionalEncoding
 from espnet.nets.pytorch_backend.transformer.layer_norm import LayerNorm
-from espnet.nets.pytorch_backend.transformer.multi_layer_conv import Conv1dLinear
-from espnet.nets.pytorch_backend.transformer.multi_layer_conv import MultiLayeredConv1d
+from espnet.nets.pytorch_backend.transformer.multi_layer_conv import (
+    Conv1dLinear,
+    MultiLayeredConv1d,
+)
 from espnet.nets.pytorch_backend.transformer.positionwise_feed_forward import (
-    PositionwiseFeedForward,  # noqa: H301
+    PositionwiseFeedForward,
 )
 from espnet.nets.pytorch_backend.transformer.repeat import repeat
 from espnet.nets.pytorch_backend.transformer.subsampling_without_posenc import (
-    Conv2dSubsamplingWOPosEnc,  # noqa: H301
-)
-from espnet2.asr.encoder.abs_encoder import AbsEncoder
-import math
-import torch
-from typeguard import check_argument_types
-from typing import (
-    Optional,  # noqa: H301
-    Tuple,  # noqa: H301
+    Conv2dSubsamplingWOPosEnc,
 )
 
 
diff --git a/espnet2/asr/encoder/contextual_block_transformer_encoder.py b/espnet2/asr/encoder/contextual_block_transformer_encoder.py
index ec3b7e28193..2e21a4ced93 100644
--- a/espnet2/asr/encoder/contextual_block_transformer_encoder.py
+++ b/espnet2/asr/encoder/contextual_block_transformer_encoder.py
@@ -2,28 +2,31 @@
 #  Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
 
 """Encoder definition."""
+import math
+from typing import Optional, Tuple
+
+import torch
+from typeguard import check_argument_types
+
+from espnet2.asr.encoder.abs_encoder import AbsEncoder
 from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
 from espnet.nets.pytorch_backend.transformer.attention import MultiHeadedAttention
 from espnet.nets.pytorch_backend.transformer.contextual_block_encoder_layer import (
-    ContextualBlockEncoderLayer,  # noqa: H301
+    ContextualBlockEncoderLayer,
 )
 from espnet.nets.pytorch_backend.transformer.embedding import StreamPositionalEncoding
 from espnet.nets.pytorch_backend.transformer.layer_norm import LayerNorm
-from espnet.nets.pytorch_backend.transformer.multi_layer_conv import Conv1dLinear
-from espnet.nets.pytorch_backend.transformer.multi_layer_conv import MultiLayeredConv1d
+from espnet.nets.pytorch_backend.transformer.multi_layer_conv import (
+    Conv1dLinear,
+    MultiLayeredConv1d,
+)
 from espnet.nets.pytorch_backend.transformer.positionwise_feed_forward import (
-    PositionwiseFeedForward,  # noqa: H301
+    PositionwiseFeedForward,
 )
 from espnet.nets.pytorch_backend.transformer.repeat import repeat
 from espnet.nets.pytorch_backend.transformer.subsampling_without_posenc import (
-    Conv2dSubsamplingWOPosEnc,  # noqa: H301
+    Conv2dSubsamplingWOPosEnc,
 )
-from espnet2.asr.encoder.abs_encoder import AbsEncoder
-import math
-import torch
-from typeguard import check_argument_types
-from typing import Optional
-from typing import Tuple
 
 
 class ContextualBlockTransformerEncoder(AbsEncoder):
diff --git a/espnet2/asr/encoder/hubert_encoder.py b/espnet2/asr/encoder/hubert_encoder.py
index 2e96da8bf9b..0f4cf4a60df 100644
--- a/espnet2/asr/encoder/hubert_encoder.py
+++ b/espnet2/asr/encoder/hubert_encoder.py
@@ -12,18 +12,17 @@
 import copy
 import logging
 import os
+from pathlib import Path
+from typing import Optional, Tuple
+
 import torch
 import yaml
-
 from filelock import FileLock
-from pathlib import Path
 from typeguard import check_argument_types
-from typing import Optional
-from typing import Tuple
 
+from espnet2.asr.encoder.abs_encoder import AbsEncoder
 from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
 from espnet.nets.pytorch_backend.transformer.layer_norm import LayerNorm
-from espnet2.asr.encoder.abs_encoder import AbsEncoder
 
 
 class FairseqHubertEncoder(AbsEncoder):
@@ -278,10 +277,10 @@ def __init__(
         self.use_amp = use_amp
         try:
             from fairseq.data.dictionary import Dictionary
-            from fairseq.models.hubert.hubert import (
-                HubertModel,  # noqa: H301
-                HubertConfig,  # noqa: H301
-                HubertPretrainingConfig,  # noqa: H301
+            from fairseq.models.hubert.hubert import HubertConfig  # noqa: H301
+            from fairseq.models.hubert.hubert import HubertModel  # noqa: H301
+            from fairseq.models.hubert.hubert import (  # noqa: H301
+                HubertPretrainingConfig,
             )
         except Exception as e:
             print("Error: FairSeq is not properly installed.")
diff --git a/espnet2/asr/encoder/longformer_encoder.py b/espnet2/asr/encoder/longformer_encoder.py
index 1d9dcfcc864..4c02a64bfd1 100644
--- a/espnet2/asr/encoder/longformer_encoder.py
+++ b/espnet2/asr/encoder/longformer_encoder.py
@@ -3,36 +3,34 @@
 
 """Conformer encoder definition."""
 
-from typing import List
-from typing import Optional
-from typing import Tuple
+from typing import List, Optional, Tuple
 
 import torch
-
 from typeguard import check_argument_types
 
+from espnet2.asr.ctc import CTC
+from espnet2.asr.encoder.conformer_encoder import ConformerEncoder
 from espnet.nets.pytorch_backend.conformer.convolution import ConvolutionModule
 from espnet.nets.pytorch_backend.conformer.encoder_layer import EncoderLayer
-from espnet.nets.pytorch_backend.nets_utils import get_activation
-from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
-from espnet.nets.pytorch_backend.transformer.embedding import (
-    PositionalEncoding,  # noqa: H301
-)
+from espnet.nets.pytorch_backend.nets_utils import get_activation, make_pad_mask
+from espnet.nets.pytorch_backend.transformer.embedding import PositionalEncoding
 from espnet.nets.pytorch_backend.transformer.layer_norm import LayerNorm
-from espnet.nets.pytorch_backend.transformer.multi_layer_conv import Conv1dLinear
-from espnet.nets.pytorch_backend.transformer.multi_layer_conv import MultiLayeredConv1d
+from espnet.nets.pytorch_backend.transformer.multi_layer_conv import (
+    Conv1dLinear,
+    MultiLayeredConv1d,
+)
 from espnet.nets.pytorch_backend.transformer.positionwise_feed_forward import (
-    PositionwiseFeedForward,  # noqa: H301
+    PositionwiseFeedForward,
 )
 from espnet.nets.pytorch_backend.transformer.repeat import repeat
-from espnet.nets.pytorch_backend.transformer.subsampling import check_short_utt
-from espnet.nets.pytorch_backend.transformer.subsampling import Conv2dSubsampling
-from espnet.nets.pytorch_backend.transformer.subsampling import Conv2dSubsampling2
-from espnet.nets.pytorch_backend.transformer.subsampling import Conv2dSubsampling6
-from espnet.nets.pytorch_backend.transformer.subsampling import Conv2dSubsampling8
-from espnet.nets.pytorch_backend.transformer.subsampling import TooShortUttError
-from espnet2.asr.ctc import CTC
-from espnet2.asr.encoder.conformer_encoder import ConformerEncoder
+from espnet.nets.pytorch_backend.transformer.subsampling import (
+    Conv2dSubsampling,
+    Conv2dSubsampling2,
+    Conv2dSubsampling6,
+    Conv2dSubsampling8,
+    TooShortUttError,
+    check_short_utt,
+)
 
 
 class LongformerEncoder(ConformerEncoder):
@@ -228,10 +226,11 @@ def __init__(
         self.selfattention_layer_type = selfattention_layer_type
         if selfattention_layer_type == "lf_selfattn":
             assert pos_enc_layer_type == "abs_pos"
+            from longformer.longformer import LongformerConfig
+
             from espnet.nets.pytorch_backend.transformer.longformer_attention import (
-                LongformerAttention,  # noqa: H301
+                LongformerAttention,
             )
-            from longformer.longformer import LongformerConfig
 
             encoder_selfattn_layer = LongformerAttention
 
diff --git a/espnet2/asr/encoder/rnn_encoder.py b/espnet2/asr/encoder/rnn_encoder.py
index fd57ebfd2d8..38b2e244134 100644
--- a/espnet2/asr/encoder/rnn_encoder.py
+++ b/espnet2/asr/encoder/rnn_encoder.py
@@ -1,15 +1,12 @@
-from typing import Optional
-from typing import Sequence
-from typing import Tuple
+from typing import Optional, Sequence, Tuple
 
 import numpy as np
 import torch
 from typeguard import check_argument_types
 
-from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
-from espnet.nets.pytorch_backend.rnn.encoders import RNN
-from espnet.nets.pytorch_backend.rnn.encoders import RNNP
 from espnet2.asr.encoder.abs_encoder import AbsEncoder
+from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
+from espnet.nets.pytorch_backend.rnn.encoders import RNN, RNNP
 
 
 class RNNEncoder(AbsEncoder):
diff --git a/espnet2/asr/encoder/transformer_encoder.py b/espnet2/asr/encoder/transformer_encoder.py
index b11cb8c25d3..b97a50827e3 100644
--- a/espnet2/asr/encoder/transformer_encoder.py
+++ b/espnet2/asr/encoder/transformer_encoder.py
@@ -3,32 +3,34 @@
 
 """Transformer encoder definition."""
 
-from typing import List
-from typing import Optional
-from typing import Tuple
+from typing import List, Optional, Tuple
 
 import torch
 from typeguard import check_argument_types
 
+from espnet2.asr.ctc import CTC
+from espnet2.asr.encoder.abs_encoder import AbsEncoder
 from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
 from espnet.nets.pytorch_backend.transformer.attention import MultiHeadedAttention
 from espnet.nets.pytorch_backend.transformer.embedding import PositionalEncoding
 from espnet.nets.pytorch_backend.transformer.encoder_layer import EncoderLayer
 from espnet.nets.pytorch_backend.transformer.layer_norm import LayerNorm
-from espnet.nets.pytorch_backend.transformer.multi_layer_conv import Conv1dLinear
-from espnet.nets.pytorch_backend.transformer.multi_layer_conv import MultiLayeredConv1d
+from espnet.nets.pytorch_backend.transformer.multi_layer_conv import (
+    Conv1dLinear,
+    MultiLayeredConv1d,
+)
 from espnet.nets.pytorch_backend.transformer.positionwise_feed_forward import (
-    PositionwiseFeedForward,  # noqa: H301
+    PositionwiseFeedForward,
 )
 from espnet.nets.pytorch_backend.transformer.repeat import repeat
-from espnet.nets.pytorch_backend.transformer.subsampling import check_short_utt
-from espnet.nets.pytorch_backend.transformer.subsampling import Conv2dSubsampling
-from espnet.nets.pytorch_backend.transformer.subsampling import Conv2dSubsampling2
-from espnet.nets.pytorch_backend.transformer.subsampling import Conv2dSubsampling6
-from espnet.nets.pytorch_backend.transformer.subsampling import Conv2dSubsampling8
-from espnet.nets.pytorch_backend.transformer.subsampling import TooShortUttError
-from espnet2.asr.ctc import CTC
-from espnet2.asr.encoder.abs_encoder import AbsEncoder
+from espnet.nets.pytorch_backend.transformer.subsampling import (
+    Conv2dSubsampling,
+    Conv2dSubsampling2,
+    Conv2dSubsampling6,
+    Conv2dSubsampling8,
+    TooShortUttError,
+    check_short_utt,
+)
 
 
 class TransformerEncoder(AbsEncoder):
diff --git a/espnet2/asr/encoder/vgg_rnn_encoder.py b/espnet2/asr/encoder/vgg_rnn_encoder.py
index 8c36c8cf4f2..c648e0b947f 100644
--- a/espnet2/asr/encoder/vgg_rnn_encoder.py
+++ b/espnet2/asr/encoder/vgg_rnn_encoder.py
@@ -4,12 +4,10 @@
 import torch
 from typeguard import check_argument_types
 
+from espnet2.asr.encoder.abs_encoder import AbsEncoder
 from espnet.nets.e2e_asr_common import get_vgg2l_odim
 from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
-from espnet.nets.pytorch_backend.rnn.encoders import RNN
-from espnet.nets.pytorch_backend.rnn.encoders import RNNP
-from espnet.nets.pytorch_backend.rnn.encoders import VGG2L
-from espnet2.asr.encoder.abs_encoder import AbsEncoder
+from espnet.nets.pytorch_backend.rnn.encoders import RNN, RNNP, VGG2L
 
 
 class VGGRNNEncoder(AbsEncoder):
diff --git a/espnet2/asr/encoder/wav2vec2_encoder.py b/espnet2/asr/encoder/wav2vec2_encoder.py
index 68cad0ae60f..b6186e2596d 100644
--- a/espnet2/asr/encoder/wav2vec2_encoder.py
+++ b/espnet2/asr/encoder/wav2vec2_encoder.py
@@ -4,18 +4,17 @@
 """Encoder definition."""
 import contextlib
 import copy
-from filelock import FileLock
 import logging
 import os
-from typing import Optional
-from typing import Tuple
+from typing import Optional, Tuple
 
 import torch
+from filelock import FileLock
 from typeguard import check_argument_types
 
+from espnet2.asr.encoder.abs_encoder import AbsEncoder
 from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
 from espnet.nets.pytorch_backend.transformer.layer_norm import LayerNorm
-from espnet2.asr.encoder.abs_encoder import AbsEncoder
 
 
 class FairSeqWav2Vec2Encoder(AbsEncoder):
diff --git a/espnet2/asr/espnet_model.py b/espnet2/asr/espnet_model.py
index 08c10182a83..3943012c1c9 100644
--- a/espnet2/asr/espnet_model.py
+++ b/espnet2/asr/espnet_model.py
@@ -1,21 +1,11 @@
-from contextlib import contextmanager
-from distutils.version import LooseVersion
 import logging
-from typing import Dict
-from typing import List
-from typing import Optional
-from typing import Tuple
-from typing import Union
+from contextlib import contextmanager
+from typing import Dict, List, Optional, Tuple, Union
 
 import torch
+from packaging.version import parse as V
 from typeguard import check_argument_types
 
-from espnet.nets.e2e_asr_common import ErrorCalculator
-from espnet.nets.pytorch_backend.nets_utils import th_accuracy
-from espnet.nets.pytorch_backend.transformer.add_sos_eos import add_sos_eos
-from espnet.nets.pytorch_backend.transformer.label_smoothing_loss import (
-    LabelSmoothingLoss,  # noqa: H301
-)
 from espnet2.asr.ctc import CTC
 from espnet2.asr.decoder.abs_decoder import AbsDecoder
 from espnet2.asr.encoder.abs_encoder import AbsEncoder
@@ -28,8 +18,14 @@
 from espnet2.layers.abs_normalize import AbsNormalize
 from espnet2.torch_utils.device_funcs import force_gatherable
 from espnet2.train.abs_espnet_model import AbsESPnetModel
+from espnet.nets.e2e_asr_common import ErrorCalculator
+from espnet.nets.pytorch_backend.nets_utils import th_accuracy
+from espnet.nets.pytorch_backend.transformer.add_sos_eos import add_sos_eos
+from espnet.nets.pytorch_backend.transformer.label_smoothing_loss import (  # noqa: H301
+    LabelSmoothingLoss,
+)
 
-if LooseVersion(torch.__version__) >= LooseVersion("1.6.0"):
+if V(torch.__version__) >= V("1.6.0"):
     from torch.cuda.amp import autocast
 else:
     # Nothing to do if torch<1.6.0
diff --git a/espnet2/asr/frontend/abs_frontend.py b/espnet2/asr/frontend/abs_frontend.py
index 538236fe944..8f785e38d9e 100644
--- a/espnet2/asr/frontend/abs_frontend.py
+++ b/espnet2/asr/frontend/abs_frontend.py
@@ -1,5 +1,4 @@
-from abc import ABC
-from abc import abstractmethod
+from abc import ABC, abstractmethod
 from typing import Tuple
 
 import torch
diff --git a/espnet2/asr/frontend/default.py b/espnet2/asr/frontend/default.py
index a2aa62c133e..f9ac5245262 100644
--- a/espnet2/asr/frontend/default.py
+++ b/espnet2/asr/frontend/default.py
@@ -1,7 +1,5 @@
 import copy
-from typing import Optional
-from typing import Tuple
-from typing import Union
+from typing import Optional, Tuple, Union
 
 import humanfriendly
 import numpy as np
@@ -9,11 +7,11 @@
 from torch_complex.tensor import ComplexTensor
 from typeguard import check_argument_types
 
-from espnet.nets.pytorch_backend.frontends.frontend import Frontend
 from espnet2.asr.frontend.abs_frontend import AbsFrontend
 from espnet2.layers.log_mel import LogMel
 from espnet2.layers.stft import Stft
 from espnet2.utils.get_default_kwargs import get_default_kwargs
+from espnet.nets.pytorch_backend.frontends.frontend import Frontend
 
 
 class DefaultFrontend(AbsFrontend):
diff --git a/espnet2/asr/frontend/fused.py b/espnet2/asr/frontend/fused.py
index 365de936fc7..bc08a4ed63f 100644
--- a/espnet2/asr/frontend/fused.py
+++ b/espnet2/asr/frontend/fused.py
@@ -1,10 +1,12 @@
-from espnet2.asr.frontend.abs_frontend import AbsFrontend
-from espnet2.asr.frontend.default import DefaultFrontend
-from espnet2.asr.frontend.s3prl import S3prlFrontend
+from typing import Tuple
+
 import numpy as np
 import torch
 from typeguard import check_argument_types
-from typing import Tuple
+
+from espnet2.asr.frontend.abs_frontend import AbsFrontend
+from espnet2.asr.frontend.default import DefaultFrontend
+from espnet2.asr.frontend.s3prl import S3prlFrontend
 
 
 class FusedFrontends(AbsFrontend):
diff --git a/espnet2/asr/frontend/s3prl.py b/espnet2/asr/frontend/s3prl.py
index 6a497e0fab7..1f380ed0db4 100644
--- a/espnet2/asr/frontend/s3prl.py
+++ b/espnet2/asr/frontend/s3prl.py
@@ -1,19 +1,17 @@
-from argparse import Namespace
 import copy
 import logging
 import os
-from typing import Optional
-from typing import Tuple
-from typing import Union
+from argparse import Namespace
+from typing import Optional, Tuple, Union
 
 import humanfriendly
 import torch
 from typeguard import check_argument_types
 
-from espnet.nets.pytorch_backend.frontends.frontend import Frontend
-from espnet.nets.pytorch_backend.nets_utils import pad_list
 from espnet2.asr.frontend.abs_frontend import AbsFrontend
 from espnet2.utils.get_default_kwargs import get_default_kwargs
+from espnet.nets.pytorch_backend.frontends.frontend import Frontend
+from espnet.nets.pytorch_backend.nets_utils import pad_list
 
 
 def base_s3prl_setup(args):
diff --git a/espnet2/asr/frontend/windowing.py b/espnet2/asr/frontend/windowing.py
index 55600ca30d8..200d33e9954 100644
--- a/espnet2/asr/frontend/windowing.py
+++ b/espnet2/asr/frontend/windowing.py
@@ -4,10 +4,12 @@
 
 """Sliding Window for raw audio input data."""
 
-from espnet2.asr.frontend.abs_frontend import AbsFrontend
+from typing import Tuple
+
 import torch
 from typeguard import check_argument_types
-from typing import Tuple
+
+from espnet2.asr.frontend.abs_frontend import AbsFrontend
 
 
 class SlidingWindow(AbsFrontend):
diff --git a/espnet2/asr/maskctc_model.py b/espnet2/asr/maskctc_model.py
index ab45c625606..88589661c5e 100644
--- a/espnet2/asr/maskctc_model.py
+++ b/espnet2/asr/maskctc_model.py
@@ -1,24 +1,13 @@
+import logging
 from contextlib import contextmanager
-from distutils.version import LooseVersion
 from itertools import groupby
-import logging
-from typing import Dict
-from typing import List
-from typing import Optional
-from typing import Tuple
-from typing import Union
+from typing import Dict, List, Optional, Tuple, Union
 
 import numpy
 import torch
+from packaging.version import parse as V
 from typeguard import check_argument_types
 
-from espnet.nets.beam_search import Hypothesis
-from espnet.nets.e2e_asr_common import ErrorCalculator
-from espnet.nets.pytorch_backend.maskctc.add_mask_token import mask_uniform
-from espnet.nets.pytorch_backend.nets_utils import th_accuracy
-from espnet.nets.pytorch_backend.transformer.label_smoothing_loss import (
-    LabelSmoothingLoss,  # noqa: H301
-)
 from espnet2.asr.ctc import CTC
 from espnet2.asr.decoder.mlm_decoder import MLMDecoder
 from espnet2.asr.encoder.abs_encoder import AbsEncoder
@@ -30,8 +19,15 @@
 from espnet2.layers.abs_normalize import AbsNormalize
 from espnet2.text.token_id_converter import TokenIDConverter
 from espnet2.torch_utils.device_funcs import force_gatherable
+from espnet.nets.beam_search import Hypothesis
+from espnet.nets.e2e_asr_common import ErrorCalculator
+from espnet.nets.pytorch_backend.maskctc.add_mask_token import mask_uniform
+from espnet.nets.pytorch_backend.nets_utils import th_accuracy
+from espnet.nets.pytorch_backend.transformer.label_smoothing_loss import (  # noqa: H301
+    LabelSmoothingLoss,
+)
 
-if LooseVersion(torch.__version__) >= LooseVersion("1.6.0"):
+if V(torch.__version__) >= V("1.6.0"):
     from torch.cuda.amp import autocast
 else:
     # Nothing to do if torch<1.6.0
@@ -122,6 +118,7 @@ def forward(
         speech_lengths: torch.Tensor,
         text: torch.Tensor,
         text_lengths: torch.Tensor,
+        **kwargs,
     ) -> Tuple[torch.Tensor, Dict[str, torch.Tensor], torch.Tensor]:
         """Frontend + Encoder + Decoder + Calc loss
 
@@ -313,7 +310,10 @@ def forward(self, enc_out: torch.Tensor) -> List[Hypothesis]:
         confident_idx = torch.nonzero(probs_hat[y_idx] >= p_thres).squeeze(-1)
         mask_num = len(mask_idx)
 
-        y_in = torch.zeros(1, len(y_idx), dtype=torch.long) + self.mask_token
+        y_in = (
+            torch.zeros(1, len(y_idx), dtype=torch.long).to(enc_out.device)
+            + self.mask_token
+        )
         y_in[0][confident_idx] = y_hat[y_idx][confident_idx]
 
         logging.info("msk:{}".format(self.ids2text(y_in[0].tolist())))
diff --git a/espnet2/asr/postencoder/abs_postencoder.py b/espnet2/asr/postencoder/abs_postencoder.py
index f5ac03be27b..cebfa3b7021 100644
--- a/espnet2/asr/postencoder/abs_postencoder.py
+++ b/espnet2/asr/postencoder/abs_postencoder.py
@@ -1,5 +1,4 @@
-from abc import ABC
-from abc import abstractmethod
+from abc import ABC, abstractmethod
 from typing import Tuple
 
 import torch
diff --git a/espnet2/asr/postencoder/hugging_face_transformers_postencoder.py b/espnet2/asr/postencoder/hugging_face_transformers_postencoder.py
index a8a8177f8fd..80a716593da 100644
--- a/espnet2/asr/postencoder/hugging_face_transformers_postencoder.py
+++ b/espnet2/asr/postencoder/hugging_face_transformers_postencoder.py
@@ -4,14 +4,15 @@
 
 """Hugging Face Transformers PostEncoder."""
 
-from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
-from espnet2.asr.postencoder.abs_postencoder import AbsPostEncoder
-from typeguard import check_argument_types
-from typing import Tuple
-
 import copy
 import logging
+from typing import Tuple
+
 import torch
+from typeguard import check_argument_types
+
+from espnet2.asr.postencoder.abs_postencoder import AbsPostEncoder
+from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
 
 try:
     from transformers import AutoModel
diff --git a/espnet2/asr/preencoder/abs_preencoder.py b/espnet2/asr/preencoder/abs_preencoder.py
index 3ecdc6b91f0..67777477e0b 100644
--- a/espnet2/asr/preencoder/abs_preencoder.py
+++ b/espnet2/asr/preencoder/abs_preencoder.py
@@ -1,5 +1,4 @@
-from abc import ABC
-from abc import abstractmethod
+from abc import ABC, abstractmethod
 from typing import Tuple
 
 import torch
diff --git a/espnet2/asr/preencoder/linear.py b/espnet2/asr/preencoder/linear.py
index 9c7cc497fca..82dea1ad6dd 100644
--- a/espnet2/asr/preencoder/linear.py
+++ b/espnet2/asr/preencoder/linear.py
@@ -4,11 +4,12 @@
 
 """Linear Projection."""
 
-from espnet2.asr.preencoder.abs_preencoder import AbsPreEncoder
-from typeguard import check_argument_types
 from typing import Tuple
 
 import torch
+from typeguard import check_argument_types
+
+from espnet2.asr.preencoder.abs_preencoder import AbsPreEncoder
 
 
 class LinearProjection(AbsPreEncoder):
diff --git a/espnet2/asr/preencoder/sinc.py b/espnet2/asr/preencoder/sinc.py
index 9a9dfa6e4c0..1cf86def402 100644
--- a/espnet2/asr/preencoder/sinc.py
+++ b/espnet2/asr/preencoder/sinc.py
@@ -5,15 +5,14 @@
 """Sinc convolutions for raw audio input."""
 
 from collections import OrderedDict
-from espnet2.asr.preencoder.abs_preencoder import AbsPreEncoder
-from espnet2.layers.sinc_conv import LogCompression
-from espnet2.layers.sinc_conv import SincConv
+from typing import Optional, Tuple, Union
+
 import humanfriendly
 import torch
 from typeguard import check_argument_types
-from typing import Optional
-from typing import Tuple
-from typing import Union
+
+from espnet2.asr.preencoder.abs_preencoder import AbsPreEncoder
+from espnet2.layers.sinc_conv import LogCompression, SincConv
 
 
 class LightweightSincConvs(AbsPreEncoder):
diff --git a/espnet2/asr/specaug/abs_specaug.py b/espnet2/asr/specaug/abs_specaug.py
index 3cbac418fb6..6c9c6d8ea18 100644
--- a/espnet2/asr/specaug/abs_specaug.py
+++ b/espnet2/asr/specaug/abs_specaug.py
@@ -1,5 +1,4 @@
-from typing import Optional
-from typing import Tuple
+from typing import Optional, Tuple
 
 import torch
 
diff --git a/espnet2/asr/specaug/specaug.py b/espnet2/asr/specaug/specaug.py
index 65ed221f220..df26cff9f26 100644
--- a/espnet2/asr/specaug/specaug.py
+++ b/espnet2/asr/specaug/specaug.py
@@ -1,11 +1,8 @@
 """SpecAugment module."""
-from typing import Optional
-from typing import Sequence
-from typing import Union
+from typing import Optional, Sequence, Union
 
 from espnet2.asr.specaug.abs_specaug import AbsSpecAug
-from espnet2.layers.mask_along_axis import MaskAlongAxis
-from espnet2.layers.mask_along_axis import MaskAlongAxisVariableMaxWidth
+from espnet2.layers.mask_along_axis import MaskAlongAxis, MaskAlongAxisVariableMaxWidth
 from espnet2.layers.time_warp import TimeWarp
 
 
diff --git a/espnet2/asr/transducer/beam_search_transducer.py b/espnet2/asr/transducer/beam_search_transducer.py
index a917f842d81..31697247e99 100644
--- a/espnet2/asr/transducer/beam_search_transducer.py
+++ b/espnet2/asr/transducer/beam_search_transducer.py
@@ -2,23 +2,19 @@
 
 from dataclasses import dataclass
 import logging
-from typing import Any
-from typing import Dict
-from typing import List
-from typing import Optional
-from typing import Tuple
-from typing import Union
+from typing import Any, Dict, List, Optional, Tuple, Union
 
 import numpy as np
 import torch
 
-from espnet.nets.pytorch_backend.transducer.utils import is_prefix
-from espnet.nets.pytorch_backend.transducer.utils import recombine_hyps
-from espnet.nets.pytorch_backend.transducer.utils import select_k_expansions
-from espnet.nets.pytorch_backend.transducer.utils import subtract
-
 from espnet2.asr.decoder.abs_decoder import AbsDecoder
 from espnet2.asr.transducer.joint_network import JointNetwork
+from espnet.nets.pytorch_backend.transducer.utils import (
+    is_prefix,
+    recombine_hyps,
+    select_k_expansions,
+    subtract,
+)
 
 
 @dataclass
diff --git a/espnet2/asr/transducer/error_calculator.py b/espnet2/asr/transducer/error_calculator.py
index 5c624825a4f..4ddf9cc9b7b 100644
--- a/espnet2/asr/transducer/error_calculator.py
+++ b/espnet2/asr/transducer/error_calculator.py
@@ -1,7 +1,6 @@
 """Error Calculator module for Transducer."""
 
-from typing import List
-from typing import Tuple
+from typing import List, Tuple
 
 import torch
 
diff --git a/espnet2/asr/transducer/transducer_decoder.py b/espnet2/asr/transducer/transducer_decoder.py
index 8543cb22752..e2b03f53697 100644
--- a/espnet2/asr/transducer/transducer_decoder.py
+++ b/espnet2/asr/transducer/transducer_decoder.py
@@ -1,18 +1,12 @@
 """(RNN-)Transducer decoder definition."""
 
-from typing import Any
-from typing import Dict
-from typing import List
-from typing import Optional
-from typing import Tuple
-from typing import Union
+from typing import Any, Dict, List, Optional, Tuple, Union
 
 import torch
 from typeguard import check_argument_types
 
 from espnet2.asr.decoder.abs_decoder import AbsDecoder
-from espnet2.asr.transducer.beam_search_transducer import ExtendedHypothesis
-from espnet2.asr.transducer.beam_search_transducer import Hypothesis
+from espnet2.asr.transducer.beam_search_transducer import ExtendedHypothesis, Hypothesis
 
 
 class TransducerDecoder(AbsDecoder):
diff --git a/espnet2/bin/aggregate_stats_dirs.py b/espnet2/bin/aggregate_stats_dirs.py
index b79e67c399d..7579b513402 100755
--- a/espnet2/bin/aggregate_stats_dirs.py
+++ b/espnet2/bin/aggregate_stats_dirs.py
@@ -1,10 +1,9 @@
 #!/usr/bin/env python3
 import argparse
 import logging
-from pathlib import Path
 import sys
-from typing import Iterable
-from typing import Union
+from pathlib import Path
+from typing import Iterable, Union
 
 import numpy as np
 
diff --git a/espnet2/bin/asr_align.py b/espnet2/bin/asr_align.py
index a9f8823ca57..c66fe3f7971 100755
--- a/espnet2/bin/asr_align.py
+++ b/espnet2/bin/asr_align.py
@@ -5,33 +5,31 @@
 
 import argparse
 import logging
-from pathlib import Path
 import sys
-from typing import Optional
-from typing import TextIO
-from typing import Union
+from pathlib import Path
+from typing import List, Optional, TextIO, Union
 
 import numpy as np
 import soundfile
 import torch
-from typeguard import check_argument_types
-from typeguard import check_return_type
-from typing import List
 
-# imports for inference
-from espnet.utils.cli_utils import get_commandline_args
+# imports for CTC segmentation
+from ctc_segmentation import (
+    CtcSegmentationParameters,
+    ctc_segmentation,
+    determine_utterance_segments,
+    prepare_text,
+    prepare_token_list,
+)
+from typeguard import check_argument_types, check_return_type
+
 from espnet2.tasks.asr import ASRTask
 from espnet2.torch_utils.device_funcs import to_device
 from espnet2.utils import config_argparse
-from espnet2.utils.types import str2bool
-from espnet2.utils.types import str_or_none
+from espnet2.utils.types import str2bool, str_or_none
 
-# imports for CTC segmentation
-from ctc_segmentation import ctc_segmentation
-from ctc_segmentation import CtcSegmentationParameters
-from ctc_segmentation import determine_utterance_segments
-from ctc_segmentation import prepare_text
-from ctc_segmentation import prepare_token_list
+# imports for inference
+from espnet.utils.cli_utils import get_commandline_args
 
 
 class CTCSegmentationTask:
diff --git a/espnet2/bin/asr_inference.py b/espnet2/bin/asr_inference.py
index 15fa78025d4..64ae00399e8 100755
--- a/espnet2/bin/asr_inference.py
+++ b/espnet2/bin/asr_inference.py
@@ -1,32 +1,19 @@
 #!/usr/bin/env python3
 import argparse
 import logging
-from pathlib import Path
 import sys
-from typing import Any
-from typing import Optional
-from typing import Sequence
-from typing import Tuple
-from typing import Union
+from distutils.version import LooseVersion
+from pathlib import Path
+from typing import Any, List, Optional, Sequence, Tuple, Union
 
 import numpy as np
 import torch
-from typeguard import check_argument_types
-from typeguard import check_return_type
-from typing import List
+import torch.quantization
+from typeguard import check_argument_types, check_return_type
 
-from espnet.nets.batch_beam_search import BatchBeamSearch
-from espnet.nets.batch_beam_search_online_sim import BatchBeamSearchOnlineSim
-from espnet.nets.beam_search import BeamSearch
-from espnet.nets.beam_search import Hypothesis
-from espnet.nets.pytorch_backend.transformer.subsampling import TooShortUttError
-from espnet.nets.scorer_interface import BatchScorerInterface
-from espnet.nets.scorers.ctc import CTCPrefixScorer
-from espnet.nets.scorers.length_bonus import LengthBonus
-from espnet.utils.cli_utils import get_commandline_args
 from espnet2.asr.transducer.beam_search_transducer import BeamSearchTransducer
 from espnet2.asr.transducer.beam_search_transducer import (
-    ExtendedHypothesis as ExtTransHypothesis,  # noqa: H301
+    ExtendedHypothesis as ExtTransHypothesis,
 )
 from espnet2.asr.transducer.beam_search_transducer import Hypothesis as TransHypothesis
 from espnet2.fileio.datadir_writer import DatadirWriter
@@ -38,9 +25,15 @@
 from espnet2.torch_utils.device_funcs import to_device
 from espnet2.torch_utils.set_all_random_seed import set_all_random_seed
 from espnet2.utils import config_argparse
-from espnet2.utils.types import str2bool
-from espnet2.utils.types import str2triple_str
-from espnet2.utils.types import str_or_none
+from espnet2.utils.types import str2bool, str2triple_str, str_or_none
+from espnet.nets.batch_beam_search import BatchBeamSearch
+from espnet.nets.batch_beam_search_online_sim import BatchBeamSearchOnlineSim
+from espnet.nets.beam_search import BeamSearch, Hypothesis
+from espnet.nets.pytorch_backend.transformer.subsampling import TooShortUttError
+from espnet.nets.scorer_interface import BatchScorerInterface
+from espnet.nets.scorers.ctc import CTCPrefixScorer
+from espnet.nets.scorers.length_bonus import LengthBonus
+from espnet.utils.cli_utils import get_commandline_args
 
 
 class Speech2Text:
@@ -79,11 +72,27 @@ def __init__(
         nbest: int = 1,
         streaming: bool = False,
         enh_s2t_task: bool = False,
+        quantize_asr_model: bool = False,
+        quantize_lm: bool = False,
+        quantize_modules: List[str] = ["Linear"],
+        quantize_dtype: str = "qint8",
     ):
         assert check_argument_types()
 
         task = ASRTask if not enh_s2t_task else EnhS2TTask
 
+        if quantize_asr_model or quantize_lm:
+            if quantize_dtype == "float16" and torch.__version__ < LooseVersion(
+                "1.5.0"
+            ):
+                raise ValueError(
+                    "float16 dtype for dynamic quantization is not supported with "
+                    "torch version < 1.5.0. Switch to qint8 dtype instead."
+                )
+
+        quantize_modules = set([getattr(torch.nn, q) for q in quantize_modules])
+        quantize_dtype = getattr(torch, quantize_dtype)
+
         # 1. Build ASR model
         scorers = {}
         asr_model, asr_train_args = task.build_model_from_file(
@@ -103,6 +112,13 @@ def __init__(
             )
         asr_model.to(dtype=getattr(torch, dtype)).eval()
 
+        if quantize_asr_model:
+            logging.info("Use quantized asr model for decoding.")
+
+            asr_model = torch.quantization.quantize_dynamic(
+                asr_model, qconfig_spec=quantize_modules, dtype=quantize_dtype
+            )
+
         decoder = asr_model.decoder
 
         ctc = CTCPrefixScorer(ctc=asr_model.ctc, eos=asr_model.eos)
@@ -118,6 +134,14 @@ def __init__(
             lm, lm_train_args = LMTask.build_model_from_file(
                 lm_train_config, lm_file, device
             )
+
+            if quantize_lm:
+                logging.info("Use quantized lm for decoding.")
+
+                lm = torch.quantization.quantize_dynamic(
+                    lm, qconfig_spec=quantize_modules, dtype=quantize_dtype
+                )
+
             scorers["lm"] = lm.lm
 
         # 3. Build ngram model
@@ -366,6 +390,10 @@ def inference(
     transducer_conf: Optional[dict],
     streaming: bool,
     enh_s2t_task: bool,
+    quantize_asr_model: bool,
+    quantize_lm: bool,
+    quantize_modules: List[str],
+    quantize_dtype: str,
 ):
     assert check_argument_types()
     if batch_size > 1:
@@ -410,6 +438,10 @@ def inference(
         nbest=nbest,
         streaming=streaming,
         enh_s2t_task=enh_s2t_task,
+        quantize_asr_model=quantize_asr_model,
+        quantize_lm=quantize_lm,
+        quantize_modules=quantize_modules,
+        quantize_dtype=quantize_dtype,
     )
     speech2text = Speech2Text.from_pretrained(
         model_tag=model_tag,
@@ -558,6 +590,37 @@ def get_parser():
         help="enhancement and asr joint model",
     )
 
+    group = parser.add_argument_group("Quantization related")
+    group.add_argument(
+        "--quantize_asr_model",
+        type=str2bool,
+        default=False,
+        help="Apply dynamic quantization to ASR model.",
+    )
+    group.add_argument(
+        "--quantize_lm",
+        type=str2bool,
+        default=False,
+        help="Apply dynamic quantization to LM.",
+    )
+    group.add_argument(
+        "--quantize_modules",
+        type=str,
+        nargs="*",
+        default=["Linear"],
+        help="""List of modules to be dynamically quantized.
+        E.g.: --quantize_modules=[Linear,LSTM,GRU].
+        Each specified module should be an attribute of 'torch.nn', e.g.:
+        torch.nn.Linear, torch.nn.LSTM, torch.nn.GRU, ...""",
+    )
+    group.add_argument(
+        "--quantize_dtype",
+        type=str,
+        default="qint8",
+        choices=["float16", "qint8"],
+        help="Dtype for dynamic quantization.",
+    )
+
     group = parser.add_argument_group("Beam-search related")
     group.add_argument(
         "--batch_size",
diff --git a/espnet2/bin/asr_inference_k2.py b/espnet2/bin/asr_inference_k2.py
index 81b206fc978..830721197b3 100755
--- a/espnet2/bin/asr_inference_k2.py
+++ b/espnet2/bin/asr_inference_k2.py
@@ -2,24 +2,16 @@
 import argparse
 import datetime
 import logging
-from pathlib import Path
 import sys
-from typing import Any
-from typing import Dict
-from typing import Optional
-from typing import Sequence
-from typing import Tuple
-from typing import Union
+from pathlib import Path
+from typing import Any, Dict, List, Optional, Sequence, Tuple, Union
 
 import k2
 import numpy as np
 import torch
-from typeguard import check_argument_types
-from typeguard import check_return_type
-from typing import List
 import yaml
+from typeguard import check_argument_types, check_return_type
 
-from espnet.utils.cli_utils import get_commandline_args
 from espnet2.fileio.datadir_writer import DatadirWriter
 from espnet2.fst.lm_rescore import nbest_am_lm_scores
 from espnet2.tasks.asr import ASRTask
@@ -29,9 +21,8 @@
 from espnet2.torch_utils.device_funcs import to_device
 from espnet2.torch_utils.set_all_random_seed import set_all_random_seed
 from espnet2.utils import config_argparse
-from espnet2.utils.types import str2bool
-from espnet2.utils.types import str2triple_str
-from espnet2.utils.types import str_or_none
+from espnet2.utils.types import str2bool, str2triple_str, str_or_none
+from espnet.utils.cli_utils import get_commandline_args
 
 
 def indices_to_split_size(indices, total_elements: int = None):
diff --git a/espnet2/bin/asr_inference_maskctc.py b/espnet2/bin/asr_inference_maskctc.py
index 20b857482f1..fb07b3dc3df 100644
--- a/espnet2/bin/asr_inference_maskctc.py
+++ b/espnet2/bin/asr_inference_maskctc.py
@@ -1,23 +1,14 @@
 #!/usr/bin/env python3
 import argparse
 import logging
-from pathlib import Path
 import sys
-from typing import Any
-from typing import Optional
-from typing import Sequence
-from typing import Tuple
-from typing import Union
+from pathlib import Path
+from typing import Any, List, Optional, Sequence, Tuple, Union
 
 import numpy as np
 import torch
-from typeguard import check_argument_types
-from typeguard import check_return_type
-from typing import List
+from typeguard import check_argument_types, check_return_type
 
-from espnet.nets.beam_search import Hypothesis
-from espnet.nets.pytorch_backend.transformer.subsampling import TooShortUttError
-from espnet.utils.cli_utils import get_commandline_args
 from espnet2.asr.maskctc_model import MaskCTCInference
 from espnet2.fileio.datadir_writer import DatadirWriter
 from espnet2.tasks.asr import ASRTask
@@ -26,9 +17,10 @@
 from espnet2.torch_utils.device_funcs import to_device
 from espnet2.torch_utils.set_all_random_seed import set_all_random_seed
 from espnet2.utils import config_argparse
-from espnet2.utils.types import str2bool
-from espnet2.utils.types import str2triple_str
-from espnet2.utils.types import str_or_none
+from espnet2.utils.types import str2bool, str2triple_str, str_or_none
+from espnet.nets.beam_search import Hypothesis
+from espnet.nets.pytorch_backend.transformer.subsampling import TooShortUttError
+from espnet.utils.cli_utils import get_commandline_args
 
 
 class Speech2Text:
diff --git a/espnet2/bin/asr_inference_streaming.py b/espnet2/bin/asr_inference_streaming.py
index 4eebbb6e2a2..3bf41c478d2 100755
--- a/espnet2/bin/asr_inference_streaming.py
+++ b/espnet2/bin/asr_inference_streaming.py
@@ -1,17 +1,20 @@
 #!/usr/bin/env python3
 import argparse
-from espnet.nets.batch_beam_search_online import BatchBeamSearchOnline
-from espnet.nets.beam_search import Hypothesis
-from espnet.nets.pytorch_backend.transformer.subsampling import TooShortUttError
-from espnet.nets.scorer_interface import BatchScorerInterface
-from espnet.nets.scorers.ctc import CTCPrefixScorer
-from espnet.nets.scorers.length_bonus import LengthBonus
-from espnet.utils.cli_utils import get_commandline_args
-from espnet2.asr.encoder.contextual_block_transformer_encoder import (
-    ContextualBlockTransformerEncoder,  # noqa: H301
+import logging
+import math
+import sys
+from pathlib import Path
+from typing import List, Optional, Sequence, Tuple, Union
+
+import numpy as np
+import torch
+from typeguard import check_argument_types, check_return_type
+
+from espnet2.asr.encoder.contextual_block_conformer_encoder import (  # noqa: H301
+    ContextualBlockConformerEncoder,
 )
-from espnet2.asr.encoder.contextual_block_conformer_encoder import (
-    ContextualBlockConformerEncoder,  # noqa: H301
+from espnet2.asr.encoder.contextual_block_transformer_encoder import (  # noqa: H301
+    ContextualBlockTransformerEncoder,
 )
 from espnet2.fileio.datadir_writer import DatadirWriter
 from espnet2.tasks.asr import ASRTask
@@ -21,21 +24,14 @@
 from espnet2.torch_utils.device_funcs import to_device
 from espnet2.torch_utils.set_all_random_seed import set_all_random_seed
 from espnet2.utils import config_argparse
-from espnet2.utils.types import str2bool
-from espnet2.utils.types import str2triple_str
-from espnet2.utils.types import str_or_none
-import logging
-import numpy as np
-from pathlib import Path
-import sys
-import torch
-from typeguard import check_argument_types
-from typeguard import check_return_type
-from typing import List
-from typing import Optional
-from typing import Sequence
-from typing import Tuple
-from typing import Union
+from espnet2.utils.types import str2bool, str2triple_str, str_or_none
+from espnet.nets.batch_beam_search_online import BatchBeamSearchOnline
+from espnet.nets.beam_search import Hypothesis
+from espnet.nets.pytorch_backend.transformer.subsampling import TooShortUttError
+from espnet.nets.scorer_interface import BatchScorerInterface
+from espnet.nets.scorers.ctc import CTCPrefixScorer
+from espnet.nets.scorers.length_bonus import LengthBonus
+from espnet.utils.cli_utils import get_commandline_args
 
 
 class Speech2TextStreaming:
@@ -181,6 +177,21 @@ def __init__(
         self.device = device
         self.dtype = dtype
         self.nbest = nbest
+        if "n_fft" in asr_train_args.frontend_conf:
+            self.n_fft = asr_train_args.frontend_conf["n_fft"]
+        else:
+            self.n_fft = 512
+        if "hop_length" in asr_train_args.frontend_conf:
+            self.hop_length = asr_train_args.frontend_conf["hop_length"]
+        else:
+            self.hop_length = 128
+        if (
+            "win_length" in asr_train_args.frontend_conf
+            and asr_train_args.frontend_conf["win_length"] is not None
+        ):
+            self.win_length = asr_train_args.frontend_conf["win_length"]
+        else:
+            self.win_length = self.n_fft
 
         self.reset()
 
@@ -196,15 +207,34 @@ def apply_frontend(
             buf = prev_states["waveform_buffer"]
             speech = torch.cat([buf, speech], dim=0)
 
+        has_enough_samples = False if speech.size(0) <= self.win_length else True
+        if not has_enough_samples:
+            if is_final:
+                pad = torch.zeros(self.win_length - speech.size(0), dtype=speech.dtype)
+                speech = torch.cat([speech, pad], dim=0)
+            else:
+                feats = None
+                feats_lengths = None
+                next_states = {"waveform_buffer": speech.clone()}
+                return feats, feats_lengths, next_states
+
         if is_final:
             speech_to_process = speech
             waveform_buffer = None
         else:
-            n_frames = (speech.size(0) - 384) // 128
-            n_residual = (speech.size(0) - 384) % 128
-            speech_to_process = speech.narrow(0, 0, 384 + n_frames * 128)
+            n_frames = (
+                speech.size(0) - (self.win_length - self.hop_length)
+            ) // self.hop_length
+            n_residual = (
+                speech.size(0) - (self.win_length - self.hop_length)
+            ) % self.hop_length
+            speech_to_process = speech.narrow(
+                0, 0, (self.win_length - self.hop_length) + n_frames * self.hop_length
+            )
             waveform_buffer = speech.narrow(
-                0, speech.size(0) - 384 - n_residual, 384 + n_residual
+                0,
+                speech.size(0) - (self.win_length - self.hop_length) - n_residual,
+                (self.win_length - self.hop_length) + n_residual,
             ).clone()
 
         # data: (Nsamples,) -> (1, Nsamples)
@@ -229,12 +259,27 @@ def apply_frontend(
             if prev_states is None:
                 pass
             else:
-                feats = feats.narrow(1, 2, feats.size(1) - 2)
+                feats = feats.narrow(
+                    1,
+                    math.ceil(math.ceil(self.win_length / self.hop_length) / 2),
+                    feats.size(1)
+                    - math.ceil(math.ceil(self.win_length / self.hop_length) / 2),
+                )
         else:
             if prev_states is None:
-                feats = feats.narrow(1, 0, feats.size(1) - 2)
+                feats = feats.narrow(
+                    1,
+                    0,
+                    feats.size(1)
+                    - math.ceil(math.ceil(self.win_length / self.hop_length) / 2),
+                )
             else:
-                feats = feats.narrow(1, 2, feats.size(1) - 4)
+                feats = feats.narrow(
+                    1,
+                    math.ceil(math.ceil(self.win_length / self.hop_length) / 2),
+                    feats.size(1)
+                    - 2 * math.ceil(math.ceil(self.win_length / self.hop_length) / 2),
+                )
 
         feats_lengths = feats.new_full([1], dtype=torch.long, fill_value=feats.size(1))
 
@@ -265,21 +310,25 @@ def __call__(
         feats, feats_lengths, self.frontend_states = self.apply_frontend(
             speech, self.frontend_states, is_final=is_final
         )
-        enc, _, self.encoder_states = self.asr_model.encoder(
-            feats,
-            feats_lengths,
-            self.encoder_states,
-            is_final=is_final,
-            infer_mode=True,
-        )
-        nbest_hyps = self.beam_search(
-            x=enc[0],
-            maxlenratio=self.maxlenratio,
-            minlenratio=self.minlenratio,
-            is_final=is_final,
-        )
 
-        ret = self.assemble_hyps(nbest_hyps)
+        if feats is not None:
+            enc, _, self.encoder_states = self.asr_model.encoder(
+                feats,
+                feats_lengths,
+                self.encoder_states,
+                is_final=is_final,
+                infer_mode=True,
+            )
+            nbest_hyps = self.beam_search(
+                x=enc[0],
+                maxlenratio=self.maxlenratio,
+                minlenratio=self.minlenratio,
+                is_final=is_final,
+            )
+            ret = self.assemble_hyps(nbest_hyps)
+        else:
+            ret = []
+
         if is_final:
             self.reset()
         return ret
diff --git a/espnet2/bin/diar_inference.py b/espnet2/bin/diar_inference.py
index df44afed1f4..e18110e392a 100755
--- a/espnet2/bin/diar_inference.py
+++ b/espnet2/bin/diar_inference.py
@@ -2,31 +2,28 @@
 
 import argparse
 import logging
-from pathlib import Path
 import sys
-from typing import Any
-from typing import List
-from typing import Optional
-from typing import Sequence
-from typing import Tuple
-from typing import Union
+from pathlib import Path
+from typing import Any, List, Optional, Sequence, Tuple, Union
 
 import numpy as np
 import torch
 from tqdm import trange
 from typeguard import check_argument_types
 
-from espnet.utils.cli_utils import get_commandline_args
 from espnet2.fileio.npy_scp import NpyScpWriter
 from espnet2.tasks.diar import DiarizationTask
 from espnet2.torch_utils.device_funcs import to_device
 from espnet2.torch_utils.set_all_random_seed import set_all_random_seed
 from espnet2.utils import config_argparse
-from espnet2.utils.types import humanfriendly_parse_size_or_none
-from espnet2.utils.types import int_or_none
-from espnet2.utils.types import str2bool
-from espnet2.utils.types import str2triple_str
-from espnet2.utils.types import str_or_none
+from espnet2.utils.types import (
+    humanfriendly_parse_size_or_none,
+    int_or_none,
+    str2bool,
+    str2triple_str,
+    str_or_none,
+)
+from espnet.utils.cli_utils import get_commandline_args
 
 
 class DiarizeSpeech:
diff --git a/espnet2/bin/enh_inference.py b/espnet2/bin/enh_inference.py
index 2deed3250c5..ddf7f73c1f3 100755
--- a/espnet2/bin/enh_inference.py
+++ b/espnet2/bin/enh_inference.py
@@ -1,24 +1,18 @@
 #!/usr/bin/env python3
 import argparse
-from itertools import chain
 import logging
-from pathlib import Path
 import sys
-from typing import Any
-from typing import List
-from typing import Optional
-from typing import Sequence
-from typing import Tuple
-from typing import Union
+from itertools import chain
+from pathlib import Path
+from typing import Any, List, Optional, Sequence, Tuple, Union
 
 import humanfriendly
 import numpy as np
 import torch
+import yaml
 from tqdm import trange
 from typeguard import check_argument_types
-import yaml
 
-from espnet.utils.cli_utils import get_commandline_args
 from espnet2.enh.loss.criterions.tf_domain import FrequencyDomainMSE
 from espnet2.enh.loss.criterions.time_domain import SISNRLoss
 from espnet2.enh.loss.wrappers.pit_solver import PITSolver
@@ -29,10 +23,8 @@
 from espnet2.torch_utils.set_all_random_seed import set_all_random_seed
 from espnet2.train.abs_espnet_model import AbsESPnetModel
 from espnet2.utils import config_argparse
-from espnet2.utils.types import str2bool
-from espnet2.utils.types import str2triple_str
-from espnet2.utils.types import str_or_none
-
+from espnet2.utils.types import str2bool, str2triple_str, str_or_none
+from espnet.utils.cli_utils import get_commandline_args
 
 EPS = torch.finfo(torch.get_default_dtype()).eps
 
diff --git a/espnet2/bin/enh_scoring.py b/espnet2/bin/enh_scoring.py
index 1c42fbf1f6d..5d76f6be42e 100755
--- a/espnet2/bin/enh_scoring.py
+++ b/espnet2/bin/enh_scoring.py
@@ -2,21 +2,19 @@
 import argparse
 import logging
 import sys
-from typing import List
-from typing import Union
+from typing import List, Union
 
-from mir_eval.separation import bss_eval_sources
 import numpy as np
-from pystoi import stoi
 import torch
+from mir_eval.separation import bss_eval_sources
+from pystoi import stoi
 from typeguard import check_argument_types
 
-from espnet.utils.cli_utils import get_commandline_args
 from espnet2.enh.loss.criterions.time_domain import SISNRLoss
 from espnet2.fileio.datadir_writer import DatadirWriter
 from espnet2.fileio.sound_scp import SoundScpReader
 from espnet2.utils import config_argparse
-
+from espnet.utils.cli_utils import get_commandline_args
 
 si_snr_loss = SISNRLoss()
 
diff --git a/espnet2/bin/launch.py b/espnet2/bin/launch.py
index 57290c3262d..23acc9c55be 100755
--- a/espnet2/bin/launch.py
+++ b/espnet2/bin/launch.py
@@ -2,16 +2,15 @@
 import argparse
 import logging
 import os
-from pathlib import Path
 import shlex
 import shutil
 import subprocess
 import sys
 import uuid
+from pathlib import Path
 
+from espnet2.utils.types import str2bool, str_or_none
 from espnet.utils.cli_utils import get_commandline_args
-from espnet2.utils.types import str2bool
-from espnet2.utils.types import str_or_none
 
 
 def get_parser():
diff --git a/espnet2/bin/lm_calc_perplexity.py b/espnet2/bin/lm_calc_perplexity.py
index 97ba229afe3..be7b99c634a 100755
--- a/espnet2/bin/lm_calc_perplexity.py
+++ b/espnet2/bin/lm_calc_perplexity.py
@@ -1,29 +1,23 @@
 #!/usr/bin/env python3
 import argparse
 import logging
-from pathlib import Path
 import sys
-from typing import Optional
-from typing import Sequence
-from typing import Tuple
-from typing import Union
+from pathlib import Path
+from typing import Optional, Sequence, Tuple, Union
 
 import numpy as np
 import torch
 from torch.nn.parallel import data_parallel
 from typeguard import check_argument_types
 
-from espnet.utils.cli_utils import get_commandline_args
 from espnet2.fileio.datadir_writer import DatadirWriter
 from espnet2.tasks.lm import LMTask
 from espnet2.torch_utils.device_funcs import to_device
 from espnet2.torch_utils.forward_adaptor import ForwardAdaptor
 from espnet2.torch_utils.set_all_random_seed import set_all_random_seed
 from espnet2.utils import config_argparse
-from espnet2.utils.types import float_or_none
-from espnet2.utils.types import str2bool
-from espnet2.utils.types import str2triple_str
-from espnet2.utils.types import str_or_none
+from espnet2.utils.types import float_or_none, str2bool, str2triple_str, str_or_none
+from espnet.utils.cli_utils import get_commandline_args
 
 
 def calc_perplexity(
diff --git a/espnet2/bin/mt_inference.py b/espnet2/bin/mt_inference.py
index e523e1e6d47..e1d37ae3d8f 100755
--- a/espnet2/bin/mt_inference.py
+++ b/espnet2/bin/mt_inference.py
@@ -1,27 +1,14 @@
 #!/usr/bin/env python3
 import argparse
 import logging
-from pathlib import Path
 import sys
-from typing import Any
-from typing import Optional
-from typing import Sequence
-from typing import Tuple
-from typing import Union
+from pathlib import Path
+from typing import Any, List, Optional, Sequence, Tuple, Union
 
 import numpy as np
 import torch
-from typeguard import check_argument_types
-from typeguard import check_return_type
-from typing import List
+from typeguard import check_argument_types, check_return_type
 
-from espnet.nets.batch_beam_search import BatchBeamSearch
-from espnet.nets.beam_search import BeamSearch
-from espnet.nets.beam_search import Hypothesis
-from espnet.nets.pytorch_backend.transformer.subsampling import TooShortUttError
-from espnet.nets.scorer_interface import BatchScorerInterface
-from espnet.nets.scorers.length_bonus import LengthBonus
-from espnet.utils.cli_utils import get_commandline_args
 from espnet2.fileio.datadir_writer import DatadirWriter
 from espnet2.tasks.lm import LMTask
 from espnet2.tasks.mt import MTTask
@@ -30,9 +17,13 @@
 from espnet2.torch_utils.device_funcs import to_device
 from espnet2.torch_utils.set_all_random_seed import set_all_random_seed
 from espnet2.utils import config_argparse
-from espnet2.utils.types import str2bool
-from espnet2.utils.types import str2triple_str
-from espnet2.utils.types import str_or_none
+from espnet2.utils.types import str2bool, str2triple_str, str_or_none
+from espnet.nets.batch_beam_search import BatchBeamSearch
+from espnet.nets.beam_search import BeamSearch, Hypothesis
+from espnet.nets.pytorch_backend.transformer.subsampling import TooShortUttError
+from espnet.nets.scorer_interface import BatchScorerInterface
+from espnet.nets.scorers.length_bonus import LengthBonus
+from espnet.utils.cli_utils import get_commandline_args
 
 
 class Text2Text:
diff --git a/espnet2/bin/split_scps.py b/espnet2/bin/split_scps.py
index 557c70bac2c..ff4f15c3d23 100755
--- a/espnet2/bin/split_scps.py
+++ b/espnet2/bin/split_scps.py
@@ -1,12 +1,11 @@
 #!/usr/bin/env python3
 import argparse
+import logging
+import sys
 from collections import Counter
 from itertools import zip_longest
-import logging
 from pathlib import Path
-import sys
-from typing import List
-from typing import Optional
+from typing import List, Optional
 
 from espnet.utils.cli_utils import get_commandline_args
 
diff --git a/espnet2/bin/st_inference.py b/espnet2/bin/st_inference.py
index 4cf9bc4d1a6..1ec60927919 100755
--- a/espnet2/bin/st_inference.py
+++ b/espnet2/bin/st_inference.py
@@ -1,27 +1,14 @@
 #!/usr/bin/env python3
 import argparse
 import logging
-from pathlib import Path
 import sys
-from typing import Any
-from typing import Optional
-from typing import Sequence
-from typing import Tuple
-from typing import Union
+from pathlib import Path
+from typing import Any, List, Optional, Sequence, Tuple, Union
 
 import numpy as np
 import torch
-from typeguard import check_argument_types
-from typeguard import check_return_type
-from typing import List
+from typeguard import check_argument_types, check_return_type
 
-from espnet.nets.batch_beam_search import BatchBeamSearch
-from espnet.nets.beam_search import BeamSearch
-from espnet.nets.beam_search import Hypothesis
-from espnet.nets.pytorch_backend.transformer.subsampling import TooShortUttError
-from espnet.nets.scorer_interface import BatchScorerInterface
-from espnet.nets.scorers.length_bonus import LengthBonus
-from espnet.utils.cli_utils import get_commandline_args
 from espnet2.fileio.datadir_writer import DatadirWriter
 from espnet2.tasks.enh_s2t import EnhS2TTask
 from espnet2.tasks.lm import LMTask
@@ -31,9 +18,13 @@
 from espnet2.torch_utils.device_funcs import to_device
 from espnet2.torch_utils.set_all_random_seed import set_all_random_seed
 from espnet2.utils import config_argparse
-from espnet2.utils.types import str2bool
-from espnet2.utils.types import str2triple_str
-from espnet2.utils.types import str_or_none
+from espnet2.utils.types import str2bool, str2triple_str, str_or_none
+from espnet.nets.batch_beam_search import BatchBeamSearch
+from espnet.nets.beam_search import BeamSearch, Hypothesis
+from espnet.nets.pytorch_backend.transformer.subsampling import TooShortUttError
+from espnet.nets.scorer_interface import BatchScorerInterface
+from espnet.nets.scorers.length_bonus import LengthBonus
+from espnet.utils.cli_utils import get_commandline_args
 
 
 class Speech2Text:
diff --git a/espnet2/bin/st_inference_streaming.py b/espnet2/bin/st_inference_streaming.py
new file mode 100644
index 00000000000..6f8f7ac4b58
--- /dev/null
+++ b/espnet2/bin/st_inference_streaming.py
@@ -0,0 +1,611 @@
+#!/usr/bin/env python3
+import argparse
+import logging
+import math
+import sys
+from pathlib import Path
+from typing import List, Optional, Sequence, Tuple, Union
+
+import numpy as np
+import torch
+from typeguard import check_argument_types, check_return_type
+
+from espnet2.asr.encoder.contextual_block_conformer_encoder import (  # noqa: H301
+    ContextualBlockConformerEncoder,
+)
+from espnet2.asr.encoder.contextual_block_transformer_encoder import (  # noqa: H301
+    ContextualBlockTransformerEncoder,
+)
+from espnet2.fileio.datadir_writer import DatadirWriter
+from espnet2.tasks.lm import LMTask
+from espnet2.tasks.st import STTask
+from espnet2.text.build_tokenizer import build_tokenizer
+from espnet2.text.token_id_converter import TokenIDConverter
+from espnet2.torch_utils.device_funcs import to_device
+from espnet2.torch_utils.set_all_random_seed import set_all_random_seed
+from espnet2.utils import config_argparse
+from espnet2.utils.types import str2bool, str2triple_str, str_or_none
+from espnet.nets.batch_beam_search_online import BatchBeamSearchOnline
+from espnet.nets.beam_search import Hypothesis
+from espnet.nets.pytorch_backend.transformer.subsampling import TooShortUttError
+from espnet.nets.scorer_interface import BatchScorerInterface
+from espnet.nets.scorers.length_bonus import LengthBonus
+from espnet.utils.cli_utils import get_commandline_args
+
+
+class Speech2TextStreaming:
+    """Speech2TextStreaming class
+
+    Details in "Streaming Transformer ASR with Blockwise Synchronous Beam Search"
+    (https://arxiv.org/abs/2006.14941)
+
+    Examples:
+        >>> import soundfile
+        >>> speech2text = Speech2TextStreaming("asr_config.yml", "asr.pth")
+        >>> audio, rate = soundfile.read("speech.wav")
+        >>> speech2text(audio)
+        [(text, token, token_int, hypothesis object), ...]
+
+    """
+
+    def __init__(
+        self,
+        st_train_config: Union[Path, str],
+        st_model_file: Union[Path, str] = None,
+        lm_train_config: Union[Path, str] = None,
+        lm_file: Union[Path, str] = None,
+        token_type: str = None,
+        bpemodel: str = None,
+        device: str = "cpu",
+        maxlenratio: float = 0.0,
+        minlenratio: float = 0.0,
+        batch_size: int = 1,
+        dtype: str = "float32",
+        beam_size: int = 20,
+        lm_weight: float = 1.0,
+        penalty: float = 0.0,
+        nbest: int = 1,
+        disable_repetition_detection=False,
+        decoder_text_length_limit=0,
+        encoded_feat_length_limit=0,
+    ):
+        assert check_argument_types()
+
+        # 1. Build ST model
+        scorers = {}
+        st_model, st_train_args = STTask.build_model_from_file(
+            st_train_config, st_model_file, device
+        )
+        st_model.to(dtype=getattr(torch, dtype)).eval()
+
+        assert isinstance(
+            st_model.encoder, ContextualBlockTransformerEncoder
+        ) or isinstance(st_model.encoder, ContextualBlockConformerEncoder)
+
+        decoder = st_model.decoder
+        token_list = st_model.token_list
+        scorers.update(
+            decoder=decoder,
+            length_bonus=LengthBonus(len(token_list)),
+        )
+
+        # 2. Build Language model
+        if lm_train_config is not None:
+            lm, lm_train_args = LMTask.build_model_from_file(
+                lm_train_config, lm_file, device
+            )
+            scorers["lm"] = lm.lm
+
+        # 3. Build BeamSearch object
+        weights = dict(
+            decoder=1.0,
+            lm=lm_weight,
+            length_bonus=penalty,
+        )
+
+        assert "encoder_conf" in st_train_args
+        assert "look_ahead" in st_train_args.encoder_conf
+        assert "hop_size" in st_train_args.encoder_conf
+        assert "block_size" in st_train_args.encoder_conf
+        # look_ahead = st_train_args.encoder_conf['look_ahead']
+        # hop_size   = st_train_args.encoder_conf['hop_size']
+        # block_size = st_train_args.encoder_conf['block_size']
+
+        assert batch_size == 1
+
+        beam_search = BatchBeamSearchOnline(
+            beam_size=beam_size,
+            weights=weights,
+            scorers=scorers,
+            sos=st_model.sos,
+            eos=st_model.eos,
+            vocab_size=len(token_list),
+            token_list=token_list,
+            pre_beam_score_key="full",
+            disable_repetition_detection=disable_repetition_detection,
+            decoder_text_length_limit=decoder_text_length_limit,
+            encoded_feat_length_limit=encoded_feat_length_limit,
+        )
+
+        non_batch = [
+            k
+            for k, v in beam_search.full_scorers.items()
+            if not isinstance(v, BatchScorerInterface)
+        ]
+        assert len(non_batch) == 0
+
+        # TODO(karita): make all scorers batchfied
+        logging.info("BatchBeamSearchOnline implementation is selected.")
+
+        beam_search.to(device=device, dtype=getattr(torch, dtype)).eval()
+        for scorer in scorers.values():
+            if isinstance(scorer, torch.nn.Module):
+                scorer.to(device=device, dtype=getattr(torch, dtype)).eval()
+        logging.info(f"Beam_search: {beam_search}")
+        logging.info(f"Decoding device={device}, dtype={dtype}")
+
+        # 4. [Optional] Build Text converter: e.g. bpe-sym -> Text
+        if token_type is None:
+            token_type = st_train_args.token_type
+        if bpemodel is None:
+            bpemodel = st_train_args.bpemodel
+
+        if token_type is None:
+            tokenizer = None
+        elif token_type == "bpe":
+            if bpemodel is not None:
+                tokenizer = build_tokenizer(token_type=token_type, bpemodel=bpemodel)
+            else:
+                tokenizer = None
+        else:
+            tokenizer = build_tokenizer(token_type=token_type)
+        converter = TokenIDConverter(token_list=token_list)
+        logging.info(f"Text tokenizer: {tokenizer}")
+
+        self.st_model = st_model
+        self.st_train_args = st_train_args
+        self.converter = converter
+        self.tokenizer = tokenizer
+        self.beam_search = beam_search
+        self.maxlenratio = maxlenratio
+        self.minlenratio = minlenratio
+        self.device = device
+        self.dtype = dtype
+        self.nbest = nbest
+        if "n_fft" in st_train_args.frontend_conf:
+            self.n_fft = st_train_args.frontend_conf["n_fft"]
+        else:
+            self.n_fft = 512
+        if "hop_length" in st_train_args.frontend_conf:
+            self.hop_length = st_train_args.frontend_conf["hop_length"]
+        else:
+            self.hop_length = 128
+        if (
+            "win_length" in st_train_args.frontend_conf
+            and st_train_args.frontend_conf["win_length"] is not None
+        ):
+            self.win_length = st_train_args.frontend_conf["win_length"]
+        else:
+            self.win_length = self.n_fft
+
+        self.reset()
+
+    def reset(self):
+        self.frontend_states = None
+        self.encoder_states = None
+        self.beam_search.reset()
+
+    def apply_frontend(
+        self, speech: torch.Tensor, prev_states=None, is_final: bool = False
+    ):
+        if prev_states is not None:
+            buf = prev_states["waveform_buffer"]
+            speech = torch.cat([buf, speech], dim=0)
+
+        if is_final:
+            speech_to_process = speech
+            waveform_buffer = None
+        else:
+            n_frames = (
+                speech.size(0) - (self.win_length - self.hop_length)
+            ) // self.hop_length
+            n_residual = (
+                speech.size(0) - (self.win_length - self.hop_length)
+            ) % self.hop_length
+            speech_to_process = speech.narrow(
+                0, 0, (self.win_length - self.hop_length) + n_frames * self.hop_length
+            )
+            waveform_buffer = speech.narrow(
+                0,
+                speech.size(0) - (self.win_length - self.hop_length) - n_residual,
+                (self.win_length - self.hop_length) + n_residual,
+            ).clone()
+
+        # data: (Nsamples,) -> (1, Nsamples)
+        speech_to_process = speech_to_process.unsqueeze(0).to(
+            getattr(torch, self.dtype)
+        )
+        lengths = speech_to_process.new_full(
+            [1], dtype=torch.long, fill_value=speech_to_process.size(1)
+        )
+        batch = {"speech": speech_to_process, "speech_lengths": lengths}
+
+        # lenghts: (1,)
+        # a. To device
+        batch = to_device(batch, device=self.device)
+
+        feats, feats_lengths = self.st_model._extract_feats(**batch)
+        if self.st_model.normalize is not None:
+            feats, feats_lengths = self.st_model.normalize(feats, feats_lengths)
+
+        # Trimming
+        if is_final:
+            if prev_states is None:
+                pass
+            else:
+                feats = feats.narrow(
+                    1,
+                    math.ceil(math.ceil(self.win_length / self.hop_length) / 2),
+                    feats.size(1)
+                    - math.ceil(math.ceil(self.win_length / self.hop_length) / 2),
+                )
+        else:
+            if prev_states is None:
+                feats = feats.narrow(
+                    1,
+                    0,
+                    feats.size(1)
+                    - math.ceil(math.ceil(self.win_length / self.hop_length) / 2),
+                )
+            else:
+                feats = feats.narrow(
+                    1,
+                    math.ceil(math.ceil(self.win_length / self.hop_length) / 2),
+                    feats.size(1)
+                    - 2 * math.ceil(math.ceil(self.win_length / self.hop_length) / 2),
+                )
+
+        feats_lengths = feats.new_full([1], dtype=torch.long, fill_value=feats.size(1))
+
+        if is_final:
+            next_states = None
+        else:
+            next_states = {"waveform_buffer": waveform_buffer}
+        return feats, feats_lengths, next_states
+
+    @torch.no_grad()
+    def __call__(
+        self, speech: Union[torch.Tensor, np.ndarray], is_final: bool = True
+    ) -> List[Tuple[Optional[str], List[str], List[int], Hypothesis]]:
+        """Inference
+
+        Args:
+            data: Input speech data
+        Returns:
+            text, token, token_int, hyp
+
+        """
+        assert check_argument_types()
+
+        # Input as audio signal
+        if isinstance(speech, np.ndarray):
+            speech = torch.tensor(speech)
+
+        feats, feats_lengths, self.frontend_states = self.apply_frontend(
+            speech, self.frontend_states, is_final=is_final
+        )
+        enc, _, self.encoder_states = self.st_model.encoder(
+            feats,
+            feats_lengths,
+            self.encoder_states,
+            is_final=is_final,
+            infer_mode=True,
+        )
+        nbest_hyps = self.beam_search(
+            x=enc[0],
+            maxlenratio=self.maxlenratio,
+            minlenratio=self.minlenratio,
+            is_final=is_final,
+        )
+
+        ret = self.assemble_hyps(nbest_hyps)
+        if is_final:
+            self.reset()
+        return ret
+
+    def assemble_hyps(self, hyps):
+        nbest_hyps = hyps[: self.nbest]
+        results = []
+        for hyp in nbest_hyps:
+            assert isinstance(hyp, Hypothesis), type(hyp)
+
+            # remove sos/eos and get results
+            token_int = hyp.yseq[1:-1].tolist()
+
+            # remove blank symbol id, which is assumed to be 0
+            token_int = list(filter(lambda x: x != 0, token_int))
+
+            # Change integer-ids to tokens
+            token = self.converter.ids2tokens(token_int)
+
+            if self.tokenizer is not None:
+                text = self.tokenizer.tokens2text(token)
+            else:
+                text = None
+            results.append((text, token, token_int, hyp))
+
+        assert check_return_type(results)
+        return results
+
+
+def inference(
+    output_dir: str,
+    maxlenratio: float,
+    minlenratio: float,
+    batch_size: int,
+    dtype: str,
+    beam_size: int,
+    ngpu: int,
+    seed: int,
+    lm_weight: float,
+    penalty: float,
+    nbest: int,
+    num_workers: int,
+    log_level: Union[int, str],
+    data_path_and_name_and_type: Sequence[Tuple[str, str, str]],
+    key_file: Optional[str],
+    st_train_config: str,
+    st_model_file: str,
+    lm_train_config: Optional[str],
+    lm_file: Optional[str],
+    word_lm_train_config: Optional[str],
+    word_lm_file: Optional[str],
+    token_type: Optional[str],
+    bpemodel: Optional[str],
+    allow_variable_data_keys: bool,
+    sim_chunk_length: int,
+    disable_repetition_detection: bool,
+    encoded_feat_length_limit: int,
+    decoder_text_length_limit: int,
+):
+    assert check_argument_types()
+    if batch_size > 1:
+        raise NotImplementedError("batch decoding is not implemented")
+    if word_lm_train_config is not None:
+        raise NotImplementedError("Word LM is not implemented")
+    if ngpu > 1:
+        raise NotImplementedError("only single GPU decoding is supported")
+
+    logging.basicConfig(
+        level=log_level,
+        format="%(asctime)s (%(module)s:%(lineno)d) %(levelname)s: %(message)s",
+    )
+
+    if ngpu >= 1:
+        device = "cuda"
+    else:
+        device = "cpu"
+
+    # 1. Set random-seed
+    set_all_random_seed(seed)
+
+    # 2. Build speech2text
+    speech2text = Speech2TextStreaming(
+        st_train_config=st_train_config,
+        st_model_file=st_model_file,
+        lm_train_config=lm_train_config,
+        lm_file=lm_file,
+        token_type=token_type,
+        bpemodel=bpemodel,
+        device=device,
+        maxlenratio=maxlenratio,
+        minlenratio=minlenratio,
+        dtype=dtype,
+        beam_size=beam_size,
+        lm_weight=lm_weight,
+        penalty=penalty,
+        nbest=nbest,
+        disable_repetition_detection=disable_repetition_detection,
+        decoder_text_length_limit=decoder_text_length_limit,
+        encoded_feat_length_limit=encoded_feat_length_limit,
+    )
+
+    # 3. Build data-iterator
+    loader = STTask.build_streaming_iterator(
+        data_path_and_name_and_type,
+        dtype=dtype,
+        batch_size=batch_size,
+        key_file=key_file,
+        num_workers=num_workers,
+        preprocess_fn=STTask.build_preprocess_fn(speech2text.st_train_args, False),
+        collate_fn=STTask.build_collate_fn(speech2text.st_train_args, False),
+        allow_variable_data_keys=allow_variable_data_keys,
+        inference=True,
+    )
+
+    # 7 .Start for-loop
+    # FIXME(kamo): The output format should be discussed about
+    with DatadirWriter(output_dir) as writer:
+        for keys, batch in loader:
+            assert isinstance(batch, dict), type(batch)
+            assert all(isinstance(s, str) for s in keys), keys
+            _bs = len(next(iter(batch.values())))
+            assert len(keys) == _bs, f"{len(keys)} != {_bs}"
+            batch = {k: v[0] for k, v in batch.items() if not k.endswith("_lengths")}
+            assert len(batch.keys()) == 1
+
+            try:
+                if sim_chunk_length == 0:
+                    # N-best list of (text, token, token_int, hyp_object)
+                    results = speech2text(**batch)
+                else:
+                    speech = batch["speech"]
+                    if (len(speech) // sim_chunk_length) > 1:
+                        for i in range(len(speech) // sim_chunk_length):
+                            speech2text(
+                                speech=speech[
+                                    i * sim_chunk_length : (i + 1) * sim_chunk_length
+                                ],
+                                is_final=False,
+                            )
+                        results = speech2text(
+                            speech[(i + 1) * sim_chunk_length : len(speech)],
+                            is_final=True,
+                        )
+                    else:
+                        results = speech2text(**batch)
+
+            except TooShortUttError as e:
+                logging.warning(f"Utterance {keys} {e}")
+                hyp = Hypothesis(score=0.0, scores={}, states={}, yseq=[])
+                results = [[" ", ["<space>"], [2], hyp]] * nbest
+
+            # Only supporting batch_size==1
+            key = keys[0]
+            for n, (text, token, token_int, hyp) in zip(range(1, nbest + 1), results):
+                # Create a directory: outdir/{n}best_recog
+                ibest_writer = writer[f"{n}best_recog"]
+
+                # Write the result to each file
+                ibest_writer["token"][key] = " ".join(token)
+                ibest_writer["token_int"][key] = " ".join(map(str, token_int))
+                ibest_writer["score"][key] = str(hyp.score)
+
+                if text is not None:
+                    ibest_writer["text"][key] = text
+
+
+def get_parser():
+    parser = config_argparse.ArgumentParser(
+        description="ST Decoding",
+        formatter_class=argparse.ArgumentDefaultsHelpFormatter,
+    )
+
+    # Note(kamo): Use '_' instead of '-' as separator.
+    # '-' is confusing if written in yaml.
+    parser.add_argument(
+        "--log_level",
+        type=lambda x: x.upper(),
+        default="INFO",
+        choices=("CRITICAL", "ERROR", "WARNING", "INFO", "DEBUG", "NOTSET"),
+        help="The verbose level of logging",
+    )
+
+    parser.add_argument("--output_dir", type=str, required=True)
+    parser.add_argument(
+        "--ngpu",
+        type=int,
+        default=0,
+        help="The number of gpus. 0 indicates CPU mode",
+    )
+    parser.add_argument("--seed", type=int, default=0, help="Random seed")
+    parser.add_argument(
+        "--dtype",
+        default="float32",
+        choices=["float16", "float32", "float64"],
+        help="Data type",
+    )
+    parser.add_argument(
+        "--num_workers",
+        type=int,
+        default=1,
+        help="The number of workers used for DataLoader",
+    )
+
+    group = parser.add_argument_group("Input data related")
+    group.add_argument(
+        "--data_path_and_name_and_type",
+        type=str2triple_str,
+        required=True,
+        action="append",
+    )
+    group.add_argument("--key_file", type=str_or_none)
+    group.add_argument("--allow_variable_data_keys", type=str2bool, default=False)
+    group.add_argument(
+        "--sim_chunk_length",
+        type=int,
+        default=0,
+        help="The length of one chunk, to which speech will be "
+        "divided for evalution of streaming processing.",
+    )
+
+    group = parser.add_argument_group("The model configuration related")
+    group.add_argument("--st_train_config", type=str, required=True)
+    group.add_argument("--st_model_file", type=str, required=True)
+    group.add_argument("--lm_train_config", type=str)
+    group.add_argument("--lm_file", type=str)
+    group.add_argument("--word_lm_train_config", type=str)
+    group.add_argument("--word_lm_file", type=str)
+
+    group = parser.add_argument_group("Beam-search related")
+    group.add_argument(
+        "--batch_size",
+        type=int,
+        default=1,
+        help="The batch size for inference",
+    )
+    group.add_argument("--nbest", type=int, default=1, help="Output N-best hypotheses")
+    group.add_argument("--beam_size", type=int, default=20, help="Beam size")
+    group.add_argument("--penalty", type=float, default=0.0, help="Insertion penalty")
+    group.add_argument(
+        "--maxlenratio",
+        type=float,
+        default=0.0,
+        help="Input length ratio to obtain max output length. "
+        "If maxlenratio=0.0 (default), it uses a end-detect "
+        "function "
+        "to automatically find maximum hypothesis lengths",
+    )
+    group.add_argument(
+        "--minlenratio",
+        type=float,
+        default=0.0,
+        help="Input length ratio to obtain min output length",
+    )
+    group.add_argument("--lm_weight", type=float, default=1.0, help="RNNLM weight")
+    group.add_argument("--disable_repetition_detection", type=str2bool, default=False)
+
+    group.add_argument(
+        "--encoded_feat_length_limit",
+        type=int,
+        default=0,
+        help="Limit the lengths of the encoded feature" "to input to the decoder.",
+    )
+    group.add_argument(
+        "--decoder_text_length_limit",
+        type=int,
+        default=0,
+        help="Limit the lengths of the text" "to input to the decoder.",
+    )
+
+    group = parser.add_argument_group("Text converter related")
+    group.add_argument(
+        "--token_type",
+        type=str_or_none,
+        default=None,
+        choices=["char", "bpe", None],
+        help="The token type for ST model. "
+        "If not given, refers from the training args",
+    )
+    group.add_argument(
+        "--bpemodel",
+        type=str_or_none,
+        default=None,
+        help="The model path of sentencepiece. "
+        "If not given, refers from the training args",
+    )
+
+    return parser
+
+
+def main(cmd=None):
+    print(get_commandline_args(), file=sys.stderr)
+    parser = get_parser()
+    args = parser.parse_args(cmd)
+    kwargs = vars(args)
+    kwargs.pop("config", None)
+    inference(**kwargs)
+
+
+if __name__ == "__main__":
+    main()
diff --git a/espnet2/bin/tokenize_text.py b/espnet2/bin/tokenize_text.py
index f22068c8846..890a112aaf2 100755
--- a/espnet2/bin/tokenize_text.py
+++ b/espnet2/bin/tokenize_text.py
@@ -1,20 +1,18 @@
 #!/usr/bin/env python3
 import argparse
-from collections import Counter
 import logging
-from pathlib import Path
 import sys
-from typing import List
-from typing import Optional
+from collections import Counter
+from pathlib import Path
+from typing import List, Optional
 
 from typeguard import check_argument_types
 
-from espnet.utils.cli_utils import get_commandline_args
 from espnet2.text.build_tokenizer import build_tokenizer
 from espnet2.text.cleaner import TextCleaner
 from espnet2.text.phoneme_tokenizer import g2p_choices
-from espnet2.utils.types import str2bool
-from espnet2.utils.types import str_or_none
+from espnet2.utils.types import str2bool, str_or_none
+from espnet.utils.cli_utils import get_commandline_args
 
 
 def field2slice(field: Optional[str]) -> slice:
diff --git a/espnet2/bin/tts_inference.py b/espnet2/bin/tts_inference.py
index 683074d2eb0..da35ec902c4 100755
--- a/espnet2/bin/tts_inference.py
+++ b/espnet2/bin/tts_inference.py
@@ -7,23 +7,15 @@
 import shutil
 import sys
 import time
-
-from distutils.version import LooseVersion
 from pathlib import Path
-from typing import Any
-from typing import Dict
-from typing import Optional
-from typing import Sequence
-from typing import Tuple
-from typing import Union
+from typing import Any, Dict, Optional, Sequence, Tuple, Union
 
 import numpy as np
 import soundfile as sf
 import torch
-
+from packaging.version import parse as V
 from typeguard import check_argument_types
 
-from espnet.utils.cli_utils import get_commandline_args
 from espnet2.fileio.npy_scp import NpyScpWriter
 from espnet2.gan_tts.vits import VITS
 from espnet2.tasks.tts import TTSTask
@@ -35,9 +27,8 @@
 from espnet2.tts.transformer import Transformer
 from espnet2.tts.utils import DurationCalculator
 from espnet2.utils import config_argparse
-from espnet2.utils.types import str2bool
-from espnet2.utils.types import str2triple_str
-from espnet2.utils.types import str_or_none
+from espnet2.utils.types import str2bool, str2triple_str, str_or_none
+from espnet.utils.cli_utils import get_commandline_args
 
 
 class Text2Speech:
@@ -300,7 +291,7 @@ def from_pretrained(
                 from parallel_wavegan import __version__
 
                 # NOTE(kan-bayashi): Filelock download is supported from 0.5.2
-                assert LooseVersion(__version__) > LooseVersion("0.5.1"), (
+                assert V(__version__) > V("0.5.1"), (
                     "Please install the latest parallel_wavegan "
                     "via `pip install -U parallel_wavegan`."
                 )
diff --git a/espnet2/diar/abs_diar.py b/espnet2/diar/abs_diar.py
index 9cb2f2b2cc2..e9ca1ec419e 100644
--- a/espnet2/diar/abs_diar.py
+++ b/espnet2/diar/abs_diar.py
@@ -1,5 +1,4 @@
-from abc import ABC
-from abc import abstractmethod
+from abc import ABC, abstractmethod
 from collections import OrderedDict
 from typing import Tuple
 
diff --git a/espnet2/diar/attractor/abs_attractor.py b/espnet2/diar/attractor/abs_attractor.py
index 914fdb62ea2..ca07033f575 100644
--- a/espnet2/diar/attractor/abs_attractor.py
+++ b/espnet2/diar/attractor/abs_attractor.py
@@ -1,5 +1,4 @@
-from abc import ABC
-from abc import abstractmethod
+from abc import ABC, abstractmethod
 from typing import Tuple
 
 import torch
diff --git a/espnet2/diar/decoder/abs_decoder.py b/espnet2/diar/decoder/abs_decoder.py
index bd9a1674144..1fe7bdede1e 100644
--- a/espnet2/diar/decoder/abs_decoder.py
+++ b/espnet2/diar/decoder/abs_decoder.py
@@ -1,5 +1,4 @@
-from abc import ABC
-from abc import abstractmethod
+from abc import ABC, abstractmethod
 from typing import Tuple
 
 import torch
diff --git a/espnet2/diar/espnet_model.py b/espnet2/diar/espnet_model.py
index 1e1d10af15e..d7986ef64fe 100644
--- a/espnet2/diar/espnet_model.py
+++ b/espnet2/diar/espnet_model.py
@@ -2,17 +2,14 @@
 #  Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
 
 from contextlib import contextmanager
-from distutils.version import LooseVersion
 from itertools import permutations
-from typing import Dict
-from typing import Optional
-from typing import Tuple
+from typing import Dict, Optional, Tuple
 
 import numpy as np
 import torch
+from packaging.version import parse as V
 from typeguard import check_argument_types
 
-from espnet.nets.pytorch_backend.nets_utils import to_device
 from espnet2.asr.encoder.abs_encoder import AbsEncoder
 from espnet2.asr.frontend.abs_frontend import AbsFrontend
 from espnet2.asr.specaug.abs_specaug import AbsSpecAug
@@ -21,8 +18,9 @@
 from espnet2.layers.abs_normalize import AbsNormalize
 from espnet2.torch_utils.device_funcs import force_gatherable
 from espnet2.train.abs_espnet_model import AbsESPnetModel
+from espnet.nets.pytorch_backend.nets_utils import to_device
 
-if LooseVersion(torch.__version__) >= LooseVersion("1.6.0"):
+if V(torch.__version__) >= V("1.6.0"):
     from torch.cuda.amp import autocast
 else:
     # Nothing to do if torch<1.6.0
diff --git a/espnet2/enh/abs_enh.py b/espnet2/enh/abs_enh.py
index c28745e26d1..7cfd1d89442 100644
--- a/espnet2/enh/abs_enh.py
+++ b/espnet2/enh/abs_enh.py
@@ -1,5 +1,4 @@
-from abc import ABC
-from abc import abstractmethod
+from abc import ABC, abstractmethod
 from collections import OrderedDict
 from typing import Tuple
 
diff --git a/espnet2/enh/decoder/abs_decoder.py b/espnet2/enh/decoder/abs_decoder.py
index 1ab8cb6a557..c01c465c730 100644
--- a/espnet2/enh/decoder/abs_decoder.py
+++ b/espnet2/enh/decoder/abs_decoder.py
@@ -1,5 +1,4 @@
-from abc import ABC
-from abc import abstractmethod
+from abc import ABC, abstractmethod
 from typing import Tuple
 
 import torch
diff --git a/espnet2/enh/decoder/stft_decoder.py b/espnet2/enh/decoder/stft_decoder.py
index e9d3bae5c2d..82209244474 100644
--- a/espnet2/enh/decoder/stft_decoder.py
+++ b/espnet2/enh/decoder/stft_decoder.py
@@ -1,11 +1,11 @@
-from distutils.version import LooseVersion
 import torch
+from packaging.version import parse as V
 from torch_complex.tensor import ComplexTensor
 
 from espnet2.enh.decoder.abs_decoder import AbsDecoder
 from espnet2.layers.stft import Stft
 
-is_torch_1_9_plus = LooseVersion(torch.__version__) >= LooseVersion("1.9.0")
+is_torch_1_9_plus = V(torch.__version__) >= V("1.9.0")
 
 
 class STFTDecoder(AbsDecoder):
diff --git a/espnet2/enh/encoder/abs_encoder.py b/espnet2/enh/encoder/abs_encoder.py
index ef1afb68213..5e12b053de7 100644
--- a/espnet2/enh/encoder/abs_encoder.py
+++ b/espnet2/enh/encoder/abs_encoder.py
@@ -1,5 +1,4 @@
-from abc import ABC
-from abc import abstractmethod
+from abc import ABC, abstractmethod
 from typing import Tuple
 
 import torch
diff --git a/espnet2/enh/encoder/stft_encoder.py b/espnet2/enh/encoder/stft_encoder.py
index b2ab65e5532..0f126036b0d 100644
--- a/espnet2/enh/encoder/stft_encoder.py
+++ b/espnet2/enh/encoder/stft_encoder.py
@@ -1,11 +1,11 @@
-from distutils.version import LooseVersion
 import torch
+from packaging.version import parse as V
 from torch_complex.tensor import ComplexTensor
 
 from espnet2.enh.encoder.abs_encoder import AbsEncoder
 from espnet2.layers.stft import Stft
 
-is_torch_1_9_plus = LooseVersion(torch.__version__) >= LooseVersion("1.9.0")
+is_torch_1_9_plus = V(torch.__version__) >= V("1.9.0")
 
 
 class STFTEncoder(AbsEncoder):
diff --git a/espnet2/enh/espnet_enh_s2t_model.py b/espnet2/enh/espnet_enh_s2t_model.py
index a966f88a98b..12888d95759 100644
--- a/espnet2/enh/espnet_enh_s2t_model.py
+++ b/espnet2/enh/espnet_enh_s2t_model.py
@@ -1,13 +1,10 @@
-from contextlib import contextmanager
-from distutils.version import LooseVersion
 import logging
 import random
-from typing import Dict
-from typing import List
-from typing import Tuple
-from typing import Union
+from contextlib import contextmanager
+from typing import Dict, List, Tuple, Union
 
 import torch
+from packaging.version import parse as V
 from typeguard import check_argument_types
 
 from espnet2.asr.espnet_model import ESPnetASRModel
@@ -16,7 +13,7 @@
 from espnet2.torch_utils.device_funcs import force_gatherable
 from espnet2.train.abs_espnet_model import AbsESPnetModel
 
-if LooseVersion(torch.__version__) >= LooseVersion("1.6.0"):
+if V(torch.__version__) >= V("1.6.0"):
     from torch.cuda.amp import autocast
 else:
     # Nothing to do if torch<1.6.0
@@ -32,7 +29,6 @@ def __init__(
         self,
         enh_model: ESPnetEnhancementModel,
         s2t_model: Union[ESPnetASRModel, ESPnetSTModel],
-        permutation_by_enh: bool = True,
         calc_enh_loss: bool = True,
         bypass_enh_prob: float = 0,  # 0 means do not bypass enhancement for all data
     ):
@@ -44,7 +40,6 @@ def __init__(
 
         self.bypass_enh_prob = bypass_enh_prob
 
-        self.permutation_by_enh = permutation_by_enh
         self.calc_enh_loss = calc_enh_loss
         self.extract_feats_in_collect_stats = (
             self.s2t_model.extract_feats_in_collect_stats
diff --git a/espnet2/enh/espnet_model.py b/espnet2/enh/espnet_model.py
index c31219c52c4..cbb3034032e 100644
--- a/espnet2/enh/espnet_model.py
+++ b/espnet2/enh/espnet_model.py
@@ -1,12 +1,8 @@
 """Enhancement model module."""
-from distutils.version import LooseVersion
-from typing import Dict
-from typing import List
-from typing import Optional
-from typing import OrderedDict
-from typing import Tuple
+from typing import Dict, List, Optional, OrderedDict, Tuple
 
 import torch
+from packaging.version import parse as V
 from typeguard import check_argument_types
 
 from espnet2.enh.decoder.abs_decoder import AbsDecoder
@@ -15,11 +11,11 @@
 from espnet2.enh.loss.criterions.time_domain import TimeDomainLoss
 from espnet2.enh.loss.wrappers.abs_wrapper import AbsLossWrapper
 from espnet2.enh.separator.abs_separator import AbsSeparator
+from espnet2.enh.separator.dan_separator import DANSeparator
 from espnet2.torch_utils.device_funcs import force_gatherable
 from espnet2.train.abs_espnet_model import AbsESPnetModel
 
-
-is_torch_1_9_plus = LooseVersion(torch.__version__) >= LooseVersion("1.9.0")
+is_torch_1_9_plus = V(torch.__version__) >= V("1.9.0")
 
 EPS = torch.finfo(torch.get_default_dtype()).eps
 
@@ -134,12 +130,18 @@ def forward(
         # for data-parallel
         speech_ref = speech_ref[..., : speech_lengths.max()]
         speech_ref = speech_ref.unbind(dim=1)
+        additional = {}
+        # Additional data is required in Deep Attractor Network
+        if isinstance(self.separator, DANSeparator):
+            additional["feature_ref"] = [
+                self.encoder(r, speech_lengths)[0] for r in speech_ref
+            ]
 
         speech_mix = speech_mix[:, : speech_lengths.max()]
 
         # model forward
         speech_pre, feature_mix, feature_pre, others = self.forward_enhance(
-            speech_mix, speech_lengths
+            speech_mix, speech_lengths, additional
         )
 
         # loss computation
@@ -159,9 +161,10 @@ def forward_enhance(
         self,
         speech_mix: torch.Tensor,
         speech_lengths: torch.Tensor,
+        additional: Optional[Dict] = None,
     ) -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
         feature_mix, flens = self.encoder(speech_mix, speech_lengths)
-        feature_pre, flens, others = self.separator(feature_mix, flens)
+        feature_pre, flens, others = self.separator(feature_mix, flens, additional)
         if feature_pre is not None:
             speech_pre = [self.decoder(ps, speech_lengths)[0] for ps in feature_pre]
         else:
@@ -192,7 +195,7 @@ def forward_loss(
                     # only select one channel as the reference
                     speech_ref = [sr[..., self.ref_channel] for sr in speech_ref]
                 # for the time domain criterions
-                l, s, o = loss_wrapper(speech_ref, speech_pre, o)
+                l, s, o = loss_wrapper(speech_ref, speech_pre, others)
             elif isinstance(criterion, FrequencyDomainLoss):
                 # for the time-frequency domain criterions
                 if criterion.compute_on_mask:
@@ -219,7 +222,7 @@ def forward_loss(
                     tf_ref = [self.encoder(sr, speech_lengths)[0] for sr in speech_ref]
                     tf_pre = feature_pre
 
-                l, s, o = loss_wrapper(tf_ref, tf_pre, o)
+                l, s, o = loss_wrapper(tf_ref, tf_pre, others)
             else:
                 raise NotImplementedError("Unsupported loss type: %s" % str(criterion))
 
diff --git a/espnet2/enh/layers/beamformer.py b/espnet2/enh/layers/beamformer.py
index e3d61d2489f..b47a696c39b 100644
--- a/espnet2/enh/layers/beamformer.py
+++ b/espnet2/enh/layers/beamformer.py
@@ -1,26 +1,25 @@
 """Beamformer module."""
-from distutils.version import LooseVersion
-from typing import List
-from typing import Optional
-from typing import Union
+from typing import List, Optional, Union
 
 import torch
+from packaging.version import parse as V
 from torch_complex import functional as FC
 from torch_complex.tensor import ComplexTensor
 
-from espnet2.enh.layers.complex_utils import cat
-from espnet2.enh.layers.complex_utils import complex_norm
-from espnet2.enh.layers.complex_utils import einsum
-from espnet2.enh.layers.complex_utils import inverse
-from espnet2.enh.layers.complex_utils import is_complex
-from espnet2.enh.layers.complex_utils import is_torch_complex_tensor
-from espnet2.enh.layers.complex_utils import matmul
-from espnet2.enh.layers.complex_utils import reverse
-from espnet2.enh.layers.complex_utils import solve
-from espnet2.enh.layers.complex_utils import to_double
-
-
-is_torch_1_9_plus = LooseVersion(torch.__version__) >= LooseVersion("1.9.0")
+from espnet2.enh.layers.complex_utils import (
+    cat,
+    complex_norm,
+    einsum,
+    inverse,
+    is_complex,
+    is_torch_complex_tensor,
+    matmul,
+    reverse,
+    solve,
+    to_double,
+)
+
+is_torch_1_9_plus = V(torch.__version__) >= V("1.9.0")
 EPS = torch.finfo(torch.double).eps
 
 
diff --git a/espnet2/enh/layers/complex_utils.py b/espnet2/enh/layers/complex_utils.py
index acfbe2f61a8..8fc407a51cb 100644
--- a/espnet2/enh/layers/complex_utils.py
+++ b/espnet2/enh/layers/complex_utils.py
@@ -1,17 +1,14 @@
 """Beamformer module."""
-from distutils.version import LooseVersion
-from typing import Sequence
-from typing import Tuple
-from typing import Union
+from typing import Sequence, Tuple, Union
 
 import torch
+from packaging.version import parse as V
 from torch_complex import functional as FC
 from torch_complex.tensor import ComplexTensor
 
-
 EPS = torch.finfo(torch.double).eps
-is_torch_1_8_plus = LooseVersion(torch.__version__) >= LooseVersion("1.8.0")
-is_torch_1_9_plus = LooseVersion(torch.__version__) >= LooseVersion("1.9.0")
+is_torch_1_8_plus = V(torch.__version__) >= V("1.8.0")
+is_torch_1_9_plus = V(torch.__version__) >= V("1.9.0")
 
 
 def new_complex_like(
diff --git a/espnet2/enh/layers/dc_crn.py b/espnet2/enh/layers/dc_crn.py
index ba781a4cd45..07013478a13 100644
--- a/espnet2/enh/layers/dc_crn.py
+++ b/espnet2/enh/layers/dc_crn.py
@@ -9,8 +9,7 @@
 import torch
 import torch.nn as nn
 
-from espnet2.enh.layers.conv_utils import conv2d_output_shape
-from espnet2.enh.layers.conv_utils import convtransp2d_output_shape
+from espnet2.enh.layers.conv_utils import conv2d_output_shape, convtransp2d_output_shape
 
 
 class GLSTM(nn.Module):
diff --git a/espnet2/enh/layers/dnn_beamformer.py b/espnet2/enh/layers/dnn_beamformer.py
index 40b264dcea9..deed073319f 100644
--- a/espnet2/enh/layers/dnn_beamformer.py
+++ b/espnet2/enh/layers/dnn_beamformer.py
@@ -1,36 +1,32 @@
 """DNN beamformer module."""
-from distutils.version import LooseVersion
-from typing import List
-from typing import Optional
-from typing import Tuple
-from typing import Union
-
 import logging
+from typing import List, Optional, Tuple, Union
+
 import torch
+from packaging.version import parse as V
 from torch.nn import functional as F
 from torch_complex.tensor import ComplexTensor
 
-from espnet2.enh.layers.beamformer import apply_beamforming_vector
-from espnet2.enh.layers.beamformer import blind_analytic_normalization
-from espnet2.enh.layers.beamformer import get_gev_vector
-from espnet2.enh.layers.beamformer import get_lcmv_vector_with_rtf
-from espnet2.enh.layers.beamformer import get_mvdr_vector
-from espnet2.enh.layers.beamformer import get_mvdr_vector_with_rtf
-from espnet2.enh.layers.beamformer import get_mwf_vector
-from espnet2.enh.layers.beamformer import get_rank1_mwf_vector
-from espnet2.enh.layers.beamformer import get_rtf_matrix
-from espnet2.enh.layers.beamformer import get_sdw_mwf_vector
-from espnet2.enh.layers.beamformer import get_WPD_filter_v2
-from espnet2.enh.layers.beamformer import get_WPD_filter_with_rtf
-from espnet2.enh.layers.beamformer import perform_WPD_filtering
-from espnet2.enh.layers.beamformer import prepare_beamformer_stats
-from espnet2.enh.layers.complex_utils import stack
-from espnet2.enh.layers.complex_utils import to_double
-from espnet2.enh.layers.complex_utils import to_float
+from espnet2.enh.layers.beamformer import (
+    apply_beamforming_vector,
+    blind_analytic_normalization,
+    get_gev_vector,
+    get_lcmv_vector_with_rtf,
+    get_mvdr_vector,
+    get_mvdr_vector_with_rtf,
+    get_mwf_vector,
+    get_rank1_mwf_vector,
+    get_rtf_matrix,
+    get_sdw_mwf_vector,
+    get_WPD_filter_v2,
+    get_WPD_filter_with_rtf,
+    perform_WPD_filtering,
+    prepare_beamformer_stats,
+)
+from espnet2.enh.layers.complex_utils import stack, to_double, to_float
 from espnet2.enh.layers.mask_estimator import MaskEstimator
 
-
-is_torch_1_9_plus = LooseVersion(torch.__version__) >= LooseVersion("1.9.0")
+is_torch_1_9_plus = V(torch.__version__) >= V("1.9.0")
 
 BEAMFORMER_TYPES = (
     # Minimum Variance Distortionless Response beamformer
diff --git a/espnet2/enh/layers/dnn_wpe.py b/espnet2/enh/layers/dnn_wpe.py
index f3430087742..ba5f9ccb107 100644
--- a/espnet2/enh/layers/dnn_wpe.py
+++ b/espnet2/enh/layers/dnn_wpe.py
@@ -1,14 +1,12 @@
-from typing import Tuple
-from typing import Union
+from typing import Tuple, Union
 
 import torch
 from torch_complex.tensor import ComplexTensor
 
-from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
-from espnet2.enh.layers.complex_utils import to_double
-from espnet2.enh.layers.complex_utils import to_float
+from espnet2.enh.layers.complex_utils import to_double, to_float
 from espnet2.enh.layers.mask_estimator import MaskEstimator
 from espnet2.enh.layers.wpe import wpe_one_iteration
+from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
 
 
 class DNN_WPE(torch.nn.Module):
diff --git a/espnet2/enh/layers/dprnn.py b/espnet2/enh/layers/dprnn.py
index 830e3c59a5e..4c89e3a4ccd 100644
--- a/espnet2/enh/layers/dprnn.py
+++ b/espnet2/enh/layers/dprnn.py
@@ -9,9 +9,8 @@
 
 
 import torch
-from torch.autograd import Variable
 import torch.nn as nn
-
+from torch.autograd import Variable
 
 EPS = torch.finfo(torch.get_default_dtype()).eps
 
diff --git a/espnet2/enh/layers/ifasnet.py b/espnet2/enh/layers/ifasnet.py
index 076898f4b2d..c6a4f6cbb3d 100644
--- a/espnet2/enh/layers/ifasnet.py
+++ b/espnet2/enh/layers/ifasnet.py
@@ -11,8 +11,7 @@
 import torch.nn as nn
 
 from espnet2.enh.layers import dprnn
-from espnet2.enh.layers.fasnet import BF_module
-from espnet2.enh.layers.fasnet import FaSNet_base
+from espnet2.enh.layers.fasnet import BF_module, FaSNet_base
 
 
 # implicit FaSNet (iFaSNet)
diff --git a/espnet2/enh/layers/mask_estimator.py b/espnet2/enh/layers/mask_estimator.py
index daea80f79ec..6bd69e7ef2f 100644
--- a/espnet2/enh/layers/mask_estimator.py
+++ b/espnet2/enh/layers/mask_estimator.py
@@ -1,19 +1,16 @@
-from distutils.version import LooseVersion
-from typing import Tuple
-from typing import Union
+from typing import Tuple, Union
 
 import numpy as np
 import torch
+from packaging.version import parse as V
 from torch.nn import functional as F
 from torch_complex.tensor import ComplexTensor
 
-from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
-from espnet.nets.pytorch_backend.rnn.encoders import RNN
-from espnet.nets.pytorch_backend.rnn.encoders import RNNP
 from espnet2.enh.layers.complex_utils import is_complex
+from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
+from espnet.nets.pytorch_backend.rnn.encoders import RNN, RNNP
 
-
-is_torch_1_9_plus = LooseVersion(torch.__version__) >= LooseVersion("1.9.0")
+is_torch_1_9_plus = V(torch.__version__) >= V("1.9.0")
 
 
 class MaskEstimator(torch.nn.Module):
diff --git a/espnet2/enh/layers/skim.py b/espnet2/enh/layers/skim.py
index f095f97495c..09ea339e476 100644
--- a/espnet2/enh/layers/skim.py
+++ b/espnet2/enh/layers/skim.py
@@ -6,9 +6,7 @@
 import torch
 import torch.nn as nn
 
-from espnet2.enh.layers.dprnn import merge_feature
-from espnet2.enh.layers.dprnn import SingleRNN
-from espnet2.enh.layers.dprnn import split_feature
+from espnet2.enh.layers.dprnn import SingleRNN, merge_feature, split_feature
 from espnet2.enh.layers.tcn import choose_norm
 
 
diff --git a/espnet2/enh/layers/wpe.py b/espnet2/enh/layers/wpe.py
index a9760325030..69548eec6a4 100644
--- a/espnet2/enh/layers/wpe.py
+++ b/espnet2/enh/layers/wpe.py
@@ -1,18 +1,14 @@
-from distutils.version import LooseVersion
-from typing import Tuple
-from typing import Union
+from typing import Tuple, Union
 
 import torch
 import torch.nn.functional as F
 import torch_complex.functional as FC
+from packaging.version import parse as V
 from torch_complex.tensor import ComplexTensor
 
-from espnet2.enh.layers.complex_utils import einsum
-from espnet2.enh.layers.complex_utils import matmul
-from espnet2.enh.layers.complex_utils import reverse
+from espnet2.enh.layers.complex_utils import einsum, matmul, reverse
 
-
-is_torch_1_9_plus = LooseVersion(torch.__version__) >= LooseVersion("1.9.0")
+is_torch_1_9_plus = V(torch.__version__) >= V("1.9.0")
 
 
 """ WPE pytorch version: Ported from https://github.com/fgnt/nara_wpe
diff --git a/espnet2/enh/loss/criterions/abs_loss.py b/espnet2/enh/loss/criterions/abs_loss.py
index c09119c9e07..4e2f1bbb676 100644
--- a/espnet2/enh/loss/criterions/abs_loss.py
+++ b/espnet2/enh/loss/criterions/abs_loss.py
@@ -1,6 +1,4 @@
-from abc import ABC
-from abc import abstractmethod
-
+from abc import ABC, abstractmethod
 
 import torch
 
diff --git a/espnet2/enh/loss/criterions/tf_domain.py b/espnet2/enh/loss/criterions/tf_domain.py
index 1d2481e15b8..219f35f3f99 100644
--- a/espnet2/enh/loss/criterions/tf_domain.py
+++ b/espnet2/enh/loss/criterions/tf_domain.py
@@ -1,17 +1,15 @@
-from abc import ABC
-from abc import abstractmethod
-from distutils.version import LooseVersion
+import math
+from abc import ABC, abstractmethod
 from functools import reduce
 
 import torch
+import torch.nn.functional as F
+from packaging.version import parse as V
 
-from espnet2.enh.layers.complex_utils import complex_norm
-from espnet2.enh.layers.complex_utils import is_complex
-from espnet2.enh.layers.complex_utils import new_complex_like
+from espnet2.enh.layers.complex_utils import complex_norm, is_complex, new_complex_like
 from espnet2.enh.loss.criterions.abs_loss import AbsEnhLoss
 
-
-is_torch_1_9_plus = LooseVersion(torch.__version__) >= LooseVersion("1.9.0")
+is_torch_1_9_plus = V(torch.__version__) >= V("1.9.0")
 
 EPS = torch.finfo(torch.get_default_dtype()).eps
 
@@ -223,6 +221,104 @@ def forward(self, ref, inf) -> torch.Tensor:
         return l1loss
 
 
+class FrequencyDomainDPCL(FrequencyDomainLoss):
+    def __init__(
+        self, compute_on_mask=False, mask_type="IBM", loss_type="dpcl", name=None
+    ):
+        super().__init__()
+        self._compute_on_mask = compute_on_mask
+        self._mask_type = mask_type
+        self._loss_type = loss_type
+        self._name = "dpcl" if name is None else name
+
+    @property
+    def compute_on_mask(self) -> bool:
+        return self._compute_on_mask
+
+    @property
+    def mask_type(self) -> str:
+        return self._mask_type
+
+    @property
+    def name(self) -> str:
+        return self._name
+
+    def forward(self, ref, inf) -> torch.Tensor:
+        """time-frequency Deep Clustering loss.
+
+        References:
+            [1] Deep clustering: Discriminative embeddings for segmentation and
+                separation; John R. Hershey. et al., 2016;
+                https://ieeexplore.ieee.org/document/7471631
+            [2] Manifold-Aware Deep Clustering: Maximizing Angles Between Embedding
+                Vectors Based on Regular Simplex; Tanaka, K. et al., 2021;
+                https://www.isca-speech.org/archive/interspeech_2021/tanaka21_interspeech.html
+
+        Args:
+            ref: List[(Batch, T, F) * spks]
+            inf: (Batch, T*F, D)
+        Returns:
+            loss: (Batch,)
+        """  # noqa: E501
+        assert len(ref) > 0
+        num_spk = len(ref)
+
+        # Compute the ref for Deep Clustering[1][2]
+        abs_ref = [abs(n) for n in ref]
+        if self._loss_type == "dpcl":
+            r = torch.zeros_like(abs_ref[0])
+            B = ref[0].shape[0]
+            for i in range(num_spk):
+                flags = [abs_ref[i] >= n for n in abs_ref]
+                mask = reduce(lambda x, y: x * y, flags)
+                mask = mask.int() * i
+                r += mask
+            r = r.contiguous().flatten().long()
+            re = F.one_hot(r, num_classes=num_spk)
+            re = re.contiguous().view(B, -1, num_spk)
+        elif self._loss_type == "mdc":
+            B = ref[0].shape[0]
+            manifold_vector = torch.full(
+                (num_spk, num_spk),
+                (-1 / num_spk) * math.sqrt(num_spk / (num_spk - 1)),
+                dtype=inf.dtype,
+                device=inf.device,
+            )
+            for i in range(num_spk):
+                manifold_vector[i][i] = ((num_spk - 1) / num_spk) * math.sqrt(
+                    num_spk / (num_spk - 1)
+                )
+
+            re = torch.zeros(
+                ref[0].shape[0],
+                ref[0].shape[1],
+                ref[0].shape[2],
+                num_spk,
+                device=inf.device,
+            )
+            for i in range(num_spk):
+                flags = [abs_ref[i] >= n for n in abs_ref]
+                mask = reduce(lambda x, y: x * y, flags)
+                mask = mask.int()
+                re[mask == 1] = manifold_vector[i]
+            re = re.contiguous().view(B, -1, num_spk)
+        else:
+            raise ValueError(
+                f"Invalid loss type error: {self._loss_type}, "
+                'the loss type must be "dpcl" or "mdc"'
+            )
+
+        V2 = torch.matmul(torch.transpose(inf, 2, 1), inf).pow(2).sum(dim=(1, 2))
+        Y2 = (
+            torch.matmul(torch.transpose(re, 2, 1).float(), re.float())
+            .pow(2)
+            .sum(dim=(1, 2))
+        )
+        VY = torch.matmul(torch.transpose(inf, 2, 1), re.float()).pow(2).sum(dim=(1, 2))
+
+        return V2 + Y2 - 2 * VY
+
+
 class FrequencyDomainAbsCoherence(FrequencyDomainLoss):
     def __init__(self, compute_on_mask=False, mask_type=None, name=None):
         super().__init__()
diff --git a/espnet2/enh/loss/criterions/time_domain.py b/espnet2/enh/loss/criterions/time_domain.py
index d000b83fbbb..d822af544f9 100644
--- a/espnet2/enh/loss/criterions/time_domain.py
+++ b/espnet2/enh/loss/criterions/time_domain.py
@@ -1,11 +1,10 @@
-from abc import ABC
 import logging
+from abc import ABC
 
 import ci_sdr
 import fast_bss_eval
 import torch
 
-
 from espnet2.enh.loss.criterions.abs_loss import AbsEnhLoss
 
 
diff --git a/espnet2/enh/loss/wrappers/abs_wrapper.py b/espnet2/enh/loss/wrappers/abs_wrapper.py
index e48a2b7f869..9133d6cc3af 100644
--- a/espnet2/enh/loss/wrappers/abs_wrapper.py
+++ b/espnet2/enh/loss/wrappers/abs_wrapper.py
@@ -1,8 +1,5 @@
-from abc import ABC
-from abc import abstractmethod
-from typing import Dict
-from typing import List
-from typing import Tuple
+from abc import ABC, abstractmethod
+from typing import Dict, List, Tuple
 
 import torch
 
diff --git a/espnet2/enh/loss/wrappers/dpcl_solver.py b/espnet2/enh/loss/wrappers/dpcl_solver.py
new file mode 100644
index 00000000000..434f44ea7e2
--- /dev/null
+++ b/espnet2/enh/loss/wrappers/dpcl_solver.py
@@ -0,0 +1,32 @@
+from espnet2.enh.loss.criterions.abs_loss import AbsEnhLoss
+from espnet2.enh.loss.wrappers.abs_wrapper import AbsLossWrapper
+
+
+class DPCLSolver(AbsLossWrapper):
+    def __init__(self, criterion: AbsEnhLoss, weight=1.0):
+        super().__init__()
+        self.criterion = criterion
+        self.weight = weight
+
+    def forward(self, ref, inf, others={}):
+        """A naive DPCL solver
+
+        Args:
+            ref (List[torch.Tensor]): [(batch, ...), ...] x n_spk
+            inf (List[torch.Tensor]): [(batch, ...), ...]
+            others (List): other data included in this solver
+                e.g. "tf_embedding" learned embedding of all T-F bins (B, T * F, D)
+
+        Returns:
+            loss: (torch.Tensor): minimum loss with the best permutation
+            stats: (dict), for collecting training status
+            others: reserved
+        """
+        assert "tf_embedding" in others
+
+        loss = self.criterion(ref, others["tf_embedding"]).mean()
+
+        stats = dict()
+        stats[self.criterion.name] = loss.detach()
+
+        return loss.mean(), stats, {}
diff --git a/espnet2/enh/loss/wrappers/pit_solver.py b/espnet2/enh/loss/wrappers/pit_solver.py
index 9cb810f5c9b..eab7f5e97a4 100644
--- a/espnet2/enh/loss/wrappers/pit_solver.py
+++ b/espnet2/enh/loss/wrappers/pit_solver.py
@@ -73,13 +73,14 @@ def pair_loss(permutation):
             )
             # remove stats from unused permutations
             for k, v in stats.items():
-                # (B, len(all_permutations), ...)
+                # (B, num_spk * len(all_permutations), ...)
                 new_v = torch.stack(v, dim=1)
+                B, L, *rest = new_v.shape
+                assert L == num_spk * len(all_permutations), (L, num_spk)
+                new_v = new_v.view(B, L // num_spk, num_spk, *rest).mean(2)
                 if new_v.dim() > 2:
-                    shapes = [1 for _ in range(new_v.dim() - 2)]
-                    perm0 = perm_.view(perm_.shape[0], 1, *shapes).expand(
-                        -1, -1, *new_v.shape[2:]
-                    )
+                    shapes = [1 for _ in rest]
+                    perm0 = perm_.view(perm_.shape[0], 1, *shapes).expand(-1, -1, *rest)
                 else:
                     perm0 = perm_.unsqueeze(1)
                 stats[k] = new_v.gather(1, perm0.to(device=new_v.device)).unbind(1)
diff --git a/espnet2/enh/separator/abs_separator.py b/espnet2/enh/separator/abs_separator.py
index 8b9de626026..ce68f51c887 100644
--- a/espnet2/enh/separator/abs_separator.py
+++ b/espnet2/enh/separator/abs_separator.py
@@ -1,7 +1,6 @@
-from abc import ABC
-from abc import abstractmethod
+from abc import ABC, abstractmethod
 from collections import OrderedDict
-from typing import Tuple
+from typing import Dict, Optional, Tuple
 
 import torch
 
@@ -12,6 +11,7 @@ def forward(
         self,
         input: torch.Tensor,
         ilens: torch.Tensor,
+        additional: Optional[Dict] = None,
     ) -> Tuple[Tuple[torch.Tensor], torch.Tensor, OrderedDict]:
 
         raise NotImplementedError
diff --git a/espnet2/enh/separator/asteroid_models.py b/espnet2/enh/separator/asteroid_models.py
index aad0b1f97af..6f05eb4802c 100644
--- a/espnet2/enh/separator/asteroid_models.py
+++ b/espnet2/enh/separator/asteroid_models.py
@@ -1,6 +1,6 @@
-from collections import OrderedDict
-from typing import Tuple
 import warnings
+from collections import OrderedDict
+from typing import Dict, Optional, Tuple
 
 import torch
 
@@ -66,12 +66,18 @@ def __init__(
         if loss_type != "si_snr":
             raise ValueError("Unsupported loss type: %s" % loss_type)
 
-    def forward(self, input: torch.Tensor, ilens: torch.Tensor = None):
+    def forward(
+        self,
+        input: torch.Tensor,
+        ilens: torch.Tensor = None,
+        additional: Optional[Dict] = None,
+    ):
         """Whole forward of asteroid models.
 
         Args:
             input (torch.Tensor): Raw Waveforms [B, T]
             ilens (torch.Tensor): input lengths [B]
+            additional (Dict or None): other data included in model
 
         Returns:
             estimated Waveforms(List[Union(torch.Tensor]): [(B, T), ...]
diff --git a/espnet2/enh/separator/conformer_separator.py b/espnet2/enh/separator/conformer_separator.py
index dbc1251d99d..f9122b14124 100644
--- a/espnet2/enh/separator/conformer_separator.py
+++ b/espnet2/enh/separator/conformer_separator.py
@@ -1,21 +1,16 @@
 from collections import OrderedDict
-from distutils.version import LooseVersion
-from typing import List
-from typing import Tuple
-from typing import Union
+from typing import Dict, List, Optional, Tuple, Union
 
 import torch
+from packaging.version import parse as V
 from torch_complex.tensor import ComplexTensor
 
-from espnet.nets.pytorch_backend.conformer.encoder import (
-    Encoder as ConformerEncoder,  # noqa: H301
-)
-from espnet.nets.pytorch_backend.nets_utils import make_non_pad_mask
 from espnet2.enh.layers.complex_utils import is_complex
 from espnet2.enh.separator.abs_separator import AbsSeparator
+from espnet.nets.pytorch_backend.conformer.encoder import Encoder as ConformerEncoder
+from espnet.nets.pytorch_backend.nets_utils import make_non_pad_mask
 
-
-is_torch_1_9_plus = LooseVersion(torch.__version__) >= LooseVersion("1.9.0")
+is_torch_1_9_plus = V(torch.__version__) >= V("1.9.0")
 
 
 class ConformerSeparator(AbsSeparator):
@@ -118,13 +113,18 @@ def __init__(
         }[nonlinear]
 
     def forward(
-        self, input: Union[torch.Tensor, ComplexTensor], ilens: torch.Tensor
+        self,
+        input: Union[torch.Tensor, ComplexTensor],
+        ilens: torch.Tensor,
+        additional: Optional[Dict] = None,
     ) -> Tuple[List[Union[torch.Tensor, ComplexTensor]], torch.Tensor, OrderedDict]:
         """Forward.
 
         Args:
             input (torch.Tensor or ComplexTensor): Encoded feature [B, T, N]
             ilens (torch.Tensor): input lengths [Batch]
+            additional (Dict or None): other data included in model
+                NOTE: not used in this model
 
         Returns:
             masked (List[Union(torch.Tensor, ComplexTensor)]): [(B, T, N), ...]
diff --git a/espnet2/enh/separator/dan_separator.py b/espnet2/enh/separator/dan_separator.py
new file mode 100644
index 00000000000..0e7bf708312
--- /dev/null
+++ b/espnet2/enh/separator/dan_separator.py
@@ -0,0 +1,165 @@
+from collections import OrderedDict
+from functools import reduce
+from typing import Dict, List, Optional, Tuple, Union
+
+import torch
+import torch.nn.functional as Fun
+from torch_complex.tensor import ComplexTensor
+
+from espnet2.enh.separator.abs_separator import AbsSeparator
+from espnet.nets.pytorch_backend.rnn.encoders import RNN
+
+
+class DANSeparator(AbsSeparator):
+    def __init__(
+        self,
+        input_dim: int,
+        rnn_type: str = "blstm",
+        num_spk: int = 2,
+        nonlinear: str = "tanh",
+        layer: int = 2,
+        unit: int = 512,
+        emb_D: int = 40,
+        dropout: float = 0.0,
+    ):
+        """Deep Attractor Network Separator
+
+        Reference:
+            DEEP ATTRACTOR NETWORK FOR SINGLE-MICROPHONE SPEAKER SEPARATION;
+            Zhuo Chen. et al., 2017;
+            https://pubmed.ncbi.nlm.nih.gov/29430212/
+
+        Args:
+            input_dim: input feature dimension
+            rnn_type: string, select from 'blstm', 'lstm' etc.
+            bidirectional: bool, whether the inter-chunk RNN layers are bidirectional.
+            num_spk: number of speakers
+            nonlinear: the nonlinear function for mask estimation,
+                       select from 'relu', 'tanh', 'sigmoid'
+            layer: int, number of stacked RNN layers. Default is 3.
+            unit: int, dimension of the hidden state.
+            emb_D: int, dimension of the attribute vector for one tf-bin.
+            dropout: float, dropout ratio. Default is 0.
+        """
+        super().__init__()
+
+        self._num_spk = num_spk
+
+        self.blstm = RNN(
+            idim=input_dim,
+            elayers=layer,
+            cdim=unit,
+            hdim=unit,
+            dropout=dropout,
+            typ=rnn_type,
+        )
+
+        self.linear = torch.nn.Linear(unit, input_dim * emb_D)
+
+        if nonlinear not in ("sigmoid", "relu", "tanh"):
+            raise ValueError("Not supporting nonlinear={}".format(nonlinear))
+
+        self.nonlinear = {
+            "sigmoid": torch.nn.Sigmoid(),
+            "relu": torch.nn.ReLU(),
+            "tanh": torch.nn.Tanh(),
+        }[nonlinear]
+
+        self.D = emb_D
+
+    def forward(
+        self,
+        input: Union[torch.Tensor, ComplexTensor],
+        ilens: torch.Tensor,
+        additional: Optional[Dict] = None,
+    ) -> Tuple[List[Union[torch.Tensor, ComplexTensor]], torch.Tensor, OrderedDict]:
+        """Forward.
+
+        Args:
+            input (torch.Tensor or ComplexTensor): Encoded feature [B, T, F]
+            ilens (torch.Tensor): input lengths [Batch]
+            additional (Dict or None): other data included in model
+                e.g. "feature_ref": list of reference spectra List[(B, T, F)]
+
+        Returns:
+            masked (List[Union(torch.Tensor, ComplexTensor)]): [(B, T, N), ...]
+            ilens (torch.Tensor): (B,)
+            others predicted data, e.g. masks: OrderedDict[
+                'mask_spk1': torch.Tensor(Batch, Frames, Freq),
+                'mask_spk2': torch.Tensor(Batch, Frames, Freq),
+                ...
+                'mask_spkn': torch.Tensor(Batch, Frames, Freq),
+            ]
+        """
+        # if complex spectrum,
+        if isinstance(input, ComplexTensor):
+            feature = abs(input)
+        else:
+            feature = input
+        B, T, F = input.shape
+        # x:(B, T, F)
+        x, ilens, _ = self.blstm(feature, ilens)
+        # x:(B, T, F*D)
+        x = self.linear(x)
+        # x:(B, T, F*D)
+        x = self.nonlinear(x)
+        # tf_embedding:(B, T*F, D)
+        tf_embedding = x.contiguous().view(B, T * F, -1)
+
+        # Compute the attractors
+        if self.training:
+            assert additional is not None and "feature_ref" in additional
+            origin = additional["feature_ref"]
+            abs_origin = [abs(o) for o in origin]
+            Y_t = torch.zeros(B, T, F, device=origin[0].device)
+            for i in range(self._num_spk):
+                flags = [abs_origin[i] >= o for o in abs_origin]
+                Y = reduce(lambda x, y: x * y, flags)
+                Y = Y.int() * i
+                Y_t += Y
+            Y_t = Y_t.contiguous().flatten().long()
+            Y = Fun.one_hot(Y_t, num_classes=self._num_spk)
+            Y = Y.contiguous().view(B, -1, self._num_spk).float()
+
+            # v_y:(B, D, spks)
+            v_y = torch.bmm(torch.transpose(tf_embedding, 1, 2), Y)
+            # sum_y:(B, D, spks)
+            sum_y = torch.sum(Y, 1, keepdim=True).expand_as(v_y)
+            # attractor:(B, D, spks)
+            attractor = v_y / (sum_y + 1e-8)
+        else:
+            # K-means for batch
+            centers = tf_embedding[:, : self._num_spk, :].detach()
+            dist = torch.empty(B, T * F, self._num_spk, device=tf_embedding.device)
+            last_label = torch.zeros(B, T * F, device=tf_embedding.device)
+            while True:
+                for i in range(self._num_spk):
+                    dist[:, :, i] = torch.sum(
+                        (tf_embedding - centers[:, i, :].unsqueeze(1)) ** 2, dim=2
+                    )
+                label = dist.argmin(dim=2)
+                if torch.sum(label != last_label) == 0:
+                    break
+                last_label = label
+                for b in range(B):
+                    for i in range(self._num_spk):
+                        centers[b, i] = tf_embedding[b, label[b] == i].mean(dim=0)
+            attractor = centers.permute(0, 2, 1)
+
+        # calculate the distance between embeddings and attractors
+        # dist:(B, T*F, spks)
+        dist = torch.bmm(tf_embedding, attractor)
+        masks = torch.softmax(dist, dim=2)
+        masks = masks.contiguous().view(B, T, F, self._num_spk).unbind(dim=3)
+
+        masked = [input * m for m in masks]
+
+        others = OrderedDict(
+            zip(["mask_spk{}".format(i + 1) for i in range(len(masks))], masks)
+        )
+
+        return masked, ilens, others
+
+    @property
+    def num_spk(self):
+        return self._num_spk
diff --git a/espnet2/enh/separator/dc_crn_separator.py b/espnet2/enh/separator/dc_crn_separator.py
index 4f825a6e036..99eb1aa7f48 100644
--- a/espnet2/enh/separator/dc_crn_separator.py
+++ b/espnet2/enh/separator/dc_crn_separator.py
@@ -1,20 +1,16 @@
 from collections import OrderedDict
-from distutils.version import LooseVersion
-from typing import List
-from typing import Tuple
-from typing import Union
+from typing import Dict, List, Optional, Tuple, Union
 
 import torch
+from packaging.version import parse as V
 from torch_complex.tensor import ComplexTensor
 
-from espnet2.enh.layers.complex_utils import is_complex
-from espnet2.enh.layers.complex_utils import new_complex_like
+from espnet2.enh.layers.complex_utils import is_complex, new_complex_like
 from espnet2.enh.layers.dc_crn import DC_CRN
 from espnet2.enh.separator.abs_separator import AbsSeparator
 
-
 EPS = torch.finfo(torch.get_default_dtype()).eps
-is_torch_1_9_plus = LooseVersion(torch.__version__) >= LooseVersion("1.9.0")
+is_torch_1_9_plus = V(torch.__version__) >= V("1.9.0")
 
 
 class DC_CRNSeparator(AbsSeparator):
@@ -114,7 +110,10 @@ def __init__(
         )
 
     def forward(
-        self, input: Union[torch.Tensor, ComplexTensor], ilens: torch.Tensor
+        self,
+        input: Union[torch.Tensor, ComplexTensor],
+        ilens: torch.Tensor,
+        additional: Optional[Dict] = None,
     ) -> Tuple[List[Union[torch.Tensor, ComplexTensor]], torch.Tensor, OrderedDict]:
         """DC-CRN Separator Forward.
 
diff --git a/espnet2/enh/separator/dccrn_separator.py b/espnet2/enh/separator/dccrn_separator.py
index ac0e13b0217..f5df80cbd99 100644
--- a/espnet2/enh/separator/dccrn_separator.py
+++ b/espnet2/enh/separator/dccrn_separator.py
@@ -1,22 +1,22 @@
 from collections import OrderedDict
-from distutils.version import LooseVersion
-from typing import List
-from typing import Tuple
-from typing import Union
+from typing import Dict, List, Optional, Tuple, Union
 
 import torch
 import torch.nn as nn
 import torch.nn.functional as F
+from packaging.version import parse as V
 from torch_complex.tensor import ComplexTensor
 
-from espnet2.enh.layers.complexnn import complex_cat
-from espnet2.enh.layers.complexnn import ComplexBatchNorm
-from espnet2.enh.layers.complexnn import ComplexConv2d
-from espnet2.enh.layers.complexnn import ComplexConvTranspose2d
-from espnet2.enh.layers.complexnn import NavieComplexLSTM
+from espnet2.enh.layers.complexnn import (
+    ComplexBatchNorm,
+    ComplexConv2d,
+    ComplexConvTranspose2d,
+    NavieComplexLSTM,
+    complex_cat,
+)
 from espnet2.enh.separator.abs_separator import AbsSeparator
 
-is_torch_1_9_plus = LooseVersion(torch.__version__) >= LooseVersion("1.9.0")
+is_torch_1_9_plus = V(torch.__version__) >= V("1.9.0")
 EPS = torch.finfo(torch.double).eps
 
 
@@ -159,13 +159,18 @@ def __init__(
         self.flatten_parameters()
 
     def forward(
-        self, input: Union[torch.Tensor, ComplexTensor], ilens: torch.Tensor
+        self,
+        input: Union[torch.Tensor, ComplexTensor],
+        ilens: torch.Tensor,
+        additional: Optional[Dict] = None,
     ) -> Tuple[List[Union[torch.Tensor, ComplexTensor]], torch.Tensor, OrderedDict]:
         """Forward.
 
         Args:
             input (torch.Tensor or ComplexTensor): Encoded feature [B, T, F]
             ilens (torch.Tensor): input lengths [Batch]
+            additional (Dict or None): other data included in model
+                NOTE: not used in this model
 
         Returns:
             masked (List[Union(torch.Tensor, ComplexTensor)]): [(B, T, F), ...]
diff --git a/espnet2/enh/separator/dpcl_e2e_separator.py b/espnet2/enh/separator/dpcl_e2e_separator.py
new file mode 100644
index 00000000000..134dec4c617
--- /dev/null
+++ b/espnet2/enh/separator/dpcl_e2e_separator.py
@@ -0,0 +1,182 @@
+from collections import OrderedDict
+from typing import Dict, List, Optional, Tuple, Union
+
+import torch
+from torch_complex.tensor import ComplexTensor
+
+from espnet2.enh.separator.abs_separator import AbsSeparator
+from espnet.nets.pytorch_backend.rnn.encoders import RNN
+
+
+class DPCLE2ESeparator(AbsSeparator):
+    def __init__(
+        self,
+        input_dim: int,
+        rnn_type: str = "blstm",
+        num_spk: int = 2,
+        nonlinear: str = "tanh",
+        layer: int = 2,
+        unit: int = 512,
+        emb_D: int = 40,
+        dropout: float = 0.0,
+        alpha: float = 5.0,
+        max_iteration: int = 500,
+        threshold: float = 1.0e-05,
+    ):
+        """Deep Clustering End-to-End Separator
+
+        References:
+            Single-Channel Multi-Speaker Separation using Deep Clustering;
+            Yusuf Isik. et al., 2016;
+            https://www.isca-speech.org/archive/interspeech_2016/isik16_interspeech.html
+
+        Args:
+            input_dim: input feature dimension
+            rnn_type: string, select from 'blstm', 'lstm' etc.
+            bidirectional: bool, whether the inter-chunk RNN layers are bidirectional.
+            num_spk: number of speakers
+            nonlinear: the nonlinear function for mask estimation,
+                       select from 'relu', 'tanh', 'sigmoid'
+            layer: int, number of stacked RNN layers. Default is 3.
+            unit: int, dimension of the hidden state.
+            emb_D: int, dimension of the feature vector for a tf-bin.
+            dropout: float, dropout ratio. Default is 0.
+            alpha: float, the clustering hardness parameter.
+            max_iteration: int, the max iterations of soft kmeans.
+            threshold: float, the threshold to end the soft k-means process.
+        """
+        super().__init__()
+
+        self._num_spk = num_spk
+
+        self.blstm = RNN(
+            idim=input_dim,
+            elayers=layer,
+            cdim=unit,
+            hdim=unit,
+            dropout=dropout,
+            typ=rnn_type,
+        )
+
+        self.linear = torch.nn.Linear(unit, input_dim * emb_D)
+
+        if nonlinear not in ("sigmoid", "relu", "tanh"):
+            raise ValueError("Not supporting nonlinear={}".format(nonlinear))
+
+        self.nonlinear = {
+            "sigmoid": torch.nn.Sigmoid(),
+            "relu": torch.nn.ReLU(),
+            "tanh": torch.nn.Tanh(),
+        }[nonlinear]
+
+        self.enh_blstm = RNN(
+            idim=input_dim * (num_spk + 1),
+            elayers=1,
+            cdim=unit,
+            hdim=unit,
+            dropout=dropout,
+            typ=rnn_type,
+        )
+
+        self.enh_linear = torch.nn.Linear(unit, input_dim * num_spk)
+
+        self.D = emb_D
+        self.alpha = alpha
+        self.max_iteration = max_iteration
+        self.threshold = threshold
+
+    def forward(
+        self,
+        input: Union[torch.Tensor, ComplexTensor],
+        ilens: torch.Tensor,
+        additional: Optional[Dict] = None,
+    ) -> Tuple[List[Union[torch.Tensor, ComplexTensor]], torch.Tensor, OrderedDict]:
+        """Forward.
+
+        Args:
+            input (torch.Tensor or ComplexTensor): Encoded feature [B, T, F]
+            ilens (torch.Tensor): input lengths [Batch]
+
+        Returns:
+            masked (List[Union(torch.Tensor, ComplexTensor)]): [(B, T, N), ...]
+            ilens (torch.Tensor): (B,)
+            others predicted data, e.g. V: OrderedDict[
+                others predicted data, e.g. masks: OrderedDict[
+                'mask_spk1': torch.Tensor(Batch, Frames, Freq),
+                'mask_spk2': torch.Tensor(Batch, Frames, Freq),
+                ...
+                'mask_spkn': torch.Tensor(Batch, Frames, Freq),
+            ]
+        """
+
+        # if complex spectrum,
+        if isinstance(input, ComplexTensor):
+            feature = abs(input)
+        else:
+            feature = input
+        B, T, F = input.shape
+
+        # 1st Stage
+        # x:(B, T, F)
+        x, ilens, _ = self.blstm(feature, ilens)
+        # x:(B, T, F*D)
+        x = self.linear(x)
+        # x:(B, T, F*D)
+        x = self.nonlinear(x)
+        V = x.view(B, -1, self.D)
+
+        # Soft KMeans
+        centers = V[:, : self._num_spk, :]
+        gamma = torch.zeros(B, T * F, self._num_spk, device=input.device)
+        count = 0
+        while True:
+            # Compute weight
+            gamma_exp = torch.empty(B, T * F, self._num_spk, device=input.device)
+            new_centers = torch.empty(B, self._num_spk, self.D, device=input.device)
+            for i in range(self._num_spk):
+                gamma_exp[:, :, i] = torch.exp(
+                    -self.alpha
+                    * torch.sum(V - centers[:, i, :].unsqueeze(1) ** 2, dim=2)
+                )
+            # To avoid grad becomes nan, we add a small constant in denominator
+            gamma = gamma_exp / (torch.sum(gamma_exp, dim=2, keepdim=True) + 1.0e-8)
+            # Update centers
+            for i in range(self._num_spk):
+                new_centers[:, i, :] = torch.sum(
+                    V * gamma[:, :, i].unsqueeze(2), dim=1
+                ) / (torch.sum(gamma[:, :, i].unsqueeze(2), dim=1) + 1.0e-8)
+
+            if (
+                torch.pow(new_centers - centers, 2).sum() < self.threshold
+                or count > self.max_iteration
+            ):
+                break
+
+            count += 1
+            centers = new_centers
+
+        masks = gamma.contiguous().view(B, T, F, self._num_spk).unbind(dim=3)
+        masked = [feature * m for m in masks]
+        masked.append(feature)
+
+        # 2nd Stage
+        # cat_source:(B, T, (spks+1)*F)
+        cat_source = torch.cat(masked, dim=2)
+        # cat_x:(B, T, spks*F)
+        cat_x, ilens, _ = self.enh_blstm(cat_source, ilens)
+        # z:(B, T, spks*F)
+        z = self.enh_linear(cat_x)
+        z = z.contiguous().view(B, T, F, self._num_spk)
+
+        enh_masks = torch.softmax(z, dim=3).unbind(dim=3)
+        enh_masked = [input * m for m in enh_masks]
+
+        others = OrderedDict(
+            zip(["mask_spk{}".format(i + 1) for i in range(len(enh_masks))], enh_masks)
+        )
+
+        return enh_masked, ilens, others
+
+    @property
+    def num_spk(self):
+        return self._num_spk
diff --git a/espnet2/enh/separator/dpcl_separator.py b/espnet2/enh/separator/dpcl_separator.py
new file mode 100644
index 00000000000..c2d4229512d
--- /dev/null
+++ b/espnet2/enh/separator/dpcl_separator.py
@@ -0,0 +1,138 @@
+from collections import OrderedDict
+from typing import Dict, List, Optional, Tuple, Union
+
+import torch
+from torch_complex.tensor import ComplexTensor
+
+from espnet2.enh.separator.abs_separator import AbsSeparator
+from espnet.nets.pytorch_backend.rnn.encoders import RNN
+
+
+class DPCLSeparator(AbsSeparator):
+    def __init__(
+        self,
+        input_dim: int,
+        rnn_type: str = "blstm",
+        num_spk: int = 2,
+        nonlinear: str = "tanh",
+        layer: int = 2,
+        unit: int = 512,
+        emb_D: int = 40,
+        dropout: float = 0.0,
+    ):
+        """Deep Clustering Separator.
+
+        References:
+            [1] Deep clustering: Discriminative embeddings for segmentation and
+                separation; John R. Hershey. et al., 2016;
+                https://ieeexplore.ieee.org/document/7471631
+            [2] Manifold-Aware Deep Clustering: Maximizing Angles Between Embedding
+                Vectors Based on Regular Simplex; Tanaka, K. et al., 2021;
+                https://www.isca-speech.org/archive/interspeech_2021/tanaka21_interspeech.html
+
+        Args:
+            input_dim: input feature dimension
+            rnn_type: string, select from 'blstm', 'lstm' etc.
+            bidirectional: bool, whether the inter-chunk RNN layers are bidirectional.
+            num_spk: number of speakers
+            nonlinear: the nonlinear function for mask estimation,
+                       select from 'relu', 'tanh', 'sigmoid'
+            layer: int, number of stacked RNN layers. Default is 3.
+            unit: int, dimension of the hidden state.
+            emb_D: int, dimension of the feature vector for a tf-bin.
+            dropout: float, dropout ratio. Default is 0.
+        """  # noqa: E501
+        super().__init__()
+
+        self._num_spk = num_spk
+
+        self.blstm = RNN(
+            idim=input_dim,
+            elayers=layer,
+            cdim=unit,
+            hdim=unit,
+            dropout=dropout,
+            typ=rnn_type,
+        )
+
+        self.linear = torch.nn.Linear(unit, input_dim * emb_D)
+
+        if nonlinear not in ("sigmoid", "relu", "tanh"):
+            raise ValueError("Not supporting nonlinear={}".format(nonlinear))
+
+        self.nonlinear = {
+            "sigmoid": torch.nn.Sigmoid(),
+            "relu": torch.nn.ReLU(),
+            "tanh": torch.nn.Tanh(),
+        }[nonlinear]
+
+        self.D = emb_D
+
+    def forward(
+        self,
+        input: Union[torch.Tensor, ComplexTensor],
+        ilens: torch.Tensor,
+        additional: Optional[Dict] = None,
+    ) -> Tuple[List[Union[torch.Tensor, ComplexTensor]], torch.Tensor, OrderedDict]:
+        """Forward.
+
+        Args:
+            input (torch.Tensor or ComplexTensor): Encoded feature [B, T, F]
+            ilens (torch.Tensor): input lengths [Batch]
+            additional (Dict or None): other data included in model
+                NOTE: not used in this model
+
+        Returns:
+            masked (List[Union(torch.Tensor, ComplexTensor)]): [(B, T, N), ...]
+            ilens (torch.Tensor): (B,)
+            others predicted data, e.g. tf_embedding: OrderedDict[
+                'tf_embedding': learned embedding of all T-F bins (B, T * F, D),
+            ]
+        """
+        # if complex spectrum,
+        if isinstance(input, ComplexTensor):
+            feature = abs(input)
+        else:
+            feature = input
+        B, T, F = input.shape
+        # x:(B, T, F)
+        x, ilens, _ = self.blstm(feature, ilens)
+        # x:(B, T, F*D)
+        x = self.linear(x)
+        # x:(B, T, F*D)
+        x = self.nonlinear(x)
+        tf_embedding = x.view(B, -1, self.D)
+
+        if self.training:
+            masked = None
+        else:
+            # K-means for batch
+            centers = tf_embedding[:, : self._num_spk, :].detach()
+            dist = torch.empty(B, T * F, self._num_spk, device=tf_embedding.device)
+            last_label = torch.zeros(B, T * F, device=tf_embedding.device)
+            while True:
+                for i in range(self._num_spk):
+                    dist[:, :, i] = torch.sum(
+                        (tf_embedding - centers[:, i, :].unsqueeze(1)) ** 2, dim=2
+                    )
+                label = dist.argmin(dim=2)
+                if torch.sum(label != last_label) == 0:
+                    break
+                last_label = label
+                for b in range(B):
+                    for i in range(self._num_spk):
+                        centers[b, i] = tf_embedding[b, label[b] == i].mean(dim=0)
+            label = label.view(B, T, F)
+            masked = []
+            for i in range(self._num_spk):
+                masked.append(input * (label == i))
+
+        others = OrderedDict(
+            {"tf_embedding": tf_embedding},
+        )
+
+        return masked, ilens, others
+
+    @property
+    def num_spk(self):
+        return self._num_spk
diff --git a/espnet2/enh/separator/dprnn_separator.py b/espnet2/enh/separator/dprnn_separator.py
index 1492d725d4b..228837f97fd 100644
--- a/espnet2/enh/separator/dprnn_separator.py
+++ b/espnet2/enh/separator/dprnn_separator.py
@@ -1,20 +1,15 @@
 from collections import OrderedDict
-from distutils.version import LooseVersion
-from typing import List
-from typing import Tuple
-from typing import Union
+from typing import Dict, List, Optional, Tuple, Union
 
 import torch
+from packaging.version import parse as V
 from torch_complex.tensor import ComplexTensor
 
 from espnet2.enh.layers.complex_utils import is_complex
-from espnet2.enh.layers.dprnn import DPRNN
-from espnet2.enh.layers.dprnn import merge_feature
-from espnet2.enh.layers.dprnn import split_feature
+from espnet2.enh.layers.dprnn import DPRNN, merge_feature, split_feature
 from espnet2.enh.separator.abs_separator import AbsSeparator
 
-
-is_torch_1_9_plus = LooseVersion(torch.__version__) >= LooseVersion("1.9.0")
+is_torch_1_9_plus = V(torch.__version__) >= V("1.9.0")
 
 
 class DPRNNSeparator(AbsSeparator):
@@ -70,13 +65,18 @@ def __init__(
         }[nonlinear]
 
     def forward(
-        self, input: Union[torch.Tensor, ComplexTensor], ilens: torch.Tensor
+        self,
+        input: Union[torch.Tensor, ComplexTensor],
+        ilens: torch.Tensor,
+        additional: Optional[Dict] = None,
     ) -> Tuple[List[Union[torch.Tensor, ComplexTensor]], torch.Tensor, OrderedDict]:
         """Forward.
 
         Args:
             input (torch.Tensor or ComplexTensor): Encoded feature [B, T, N]
             ilens (torch.Tensor): input lengths [Batch]
+            additional (Dict or None): other data included in model
+                NOTE: not used in this model
 
         Returns:
             masked (List[Union(torch.Tensor, ComplexTensor)]): [(B, T, N), ...]
diff --git a/espnet2/enh/separator/fasnet_separator.py b/espnet2/enh/separator/fasnet_separator.py
index a867efddeef..325398a7359 100644
--- a/espnet2/enh/separator/fasnet_separator.py
+++ b/espnet2/enh/separator/fasnet_separator.py
@@ -1,16 +1,14 @@
 from collections import OrderedDict
-from distutils.version import LooseVersion
-from typing import List
-from typing import Tuple
+from typing import Dict, List, Optional, Tuple
 
 import torch
+from packaging.version import parse as V
 
 from espnet2.enh.layers.fasnet import FaSNet_TAC
 from espnet2.enh.layers.ifasnet import iFaSNet
 from espnet2.enh.separator.abs_separator import AbsSeparator
 
-
-is_torch_1_9_plus = LooseVersion(torch.__version__) >= LooseVersion("1.9.0")
+is_torch_1_9_plus = V(torch.__version__) >= V("1.9.0")
 
 
 class FaSNetSeparator(AbsSeparator):
@@ -68,13 +66,18 @@ def __init__(
         )
 
     def forward(
-        self, input: torch.Tensor, ilens: torch.Tensor
+        self,
+        input: torch.Tensor,
+        ilens: torch.Tensor,
+        additional: Optional[Dict] = None,
     ) -> Tuple[List[torch.Tensor], torch.Tensor, OrderedDict]:
         """Forward.
 
         Args:
             input (torch.Tensor): (Batch, samples, channels)
             ilens (torch.Tensor): input lengths [Batch]
+            additional (Dict or None): other data included in model
+                NOTE: not used in this model
 
         Returns:
             separated (List[Union(torch.Tensor, ComplexTensor)]): [(B, T, N), ...]
diff --git a/espnet2/enh/separator/neural_beamformer.py b/espnet2/enh/separator/neural_beamformer.py
index 0d236183772..aa4047f24ee 100644
--- a/espnet2/enh/separator/neural_beamformer.py
+++ b/espnet2/enh/separator/neural_beamformer.py
@@ -1,7 +1,5 @@
 from collections import OrderedDict
-from typing import List
-from typing import Tuple
-from typing import Union
+from typing import Dict, List, Optional, Tuple, Union
 
 import torch
 from torch_complex.tensor import ComplexTensor
@@ -125,7 +123,10 @@ def __init__(
         self.shared_power = shared_power and use_wpe
 
     def forward(
-        self, input: Union[torch.Tensor, ComplexTensor], ilens: torch.Tensor
+        self,
+        input: Union[torch.Tensor, ComplexTensor],
+        ilens: torch.Tensor,
+        additional: Optional[Dict] = None,
     ) -> Tuple[List[Union[torch.Tensor, ComplexTensor]], torch.Tensor, OrderedDict]:
         """Forward.
 
@@ -133,6 +134,8 @@ def forward(
             input (torch.complex64/ComplexTensor):
                 mixed speech [Batch, Frames, Channel, Freq]
             ilens (torch.Tensor): input lengths [Batch]
+            additional (Dict or None): other data included in model
+                NOTE: not used in this model
 
         Returns:
             enhanced speech (single-channel): List[torch.complex64/ComplexTensor]
diff --git a/espnet2/enh/separator/rnn_separator.py b/espnet2/enh/separator/rnn_separator.py
index 032f7e5f869..3f4629def5a 100644
--- a/espnet2/enh/separator/rnn_separator.py
+++ b/espnet2/enh/separator/rnn_separator.py
@@ -1,18 +1,15 @@
 from collections import OrderedDict
-from distutils.version import LooseVersion
-from typing import List
-from typing import Tuple
-from typing import Union
+from typing import Dict, List, Optional, Tuple, Union
 
 import torch
+from packaging.version import parse as V
 from torch_complex.tensor import ComplexTensor
 
-from espnet.nets.pytorch_backend.rnn.encoders import RNN
 from espnet2.enh.layers.complex_utils import is_complex
 from espnet2.enh.separator.abs_separator import AbsSeparator
+from espnet.nets.pytorch_backend.rnn.encoders import RNN
 
-
-is_torch_1_9_plus = LooseVersion(torch.__version__) >= LooseVersion("1.9.0")
+is_torch_1_9_plus = V(torch.__version__) >= V("1.9.0")
 
 
 class RNNSeparator(AbsSeparator):
@@ -66,13 +63,18 @@ def __init__(
         }[nonlinear]
 
     def forward(
-        self, input: Union[torch.Tensor, ComplexTensor], ilens: torch.Tensor
+        self,
+        input: Union[torch.Tensor, ComplexTensor],
+        ilens: torch.Tensor,
+        additional: Optional[Dict] = None,
     ) -> Tuple[List[Union[torch.Tensor, ComplexTensor]], torch.Tensor, OrderedDict]:
         """Forward.
 
         Args:
             input (torch.Tensor or ComplexTensor): Encoded feature [B, T, N]
             ilens (torch.Tensor): input lengths [Batch]
+            additional (Dict or None): other data included in model
+                NOTE: not used in this model
 
         Returns:
             masked (List[Union(torch.Tensor, ComplexTensor)]): [(B, T, N), ...]
diff --git a/espnet2/enh/separator/skim_separator.py b/espnet2/enh/separator/skim_separator.py
index 2f58421df32..be13531d46c 100644
--- a/espnet2/enh/separator/skim_separator.py
+++ b/espnet2/enh/separator/skim_separator.py
@@ -1,7 +1,5 @@
 from collections import OrderedDict
-from typing import List
-from typing import Tuple
-from typing import Union
+from typing import Dict, List, Optional, Tuple, Union
 
 import torch
 from torch_complex.tensor import ComplexTensor
@@ -80,13 +78,18 @@ def __init__(
         }[nonlinear]
 
     def forward(
-        self, input: Union[torch.Tensor, ComplexTensor], ilens: torch.Tensor
+        self,
+        input: Union[torch.Tensor, ComplexTensor],
+        ilens: torch.Tensor,
+        additional: Optional[Dict] = None,
     ) -> Tuple[List[Union[torch.Tensor, ComplexTensor]], torch.Tensor, OrderedDict]:
         """Forward.
 
         Args:
             input (torch.Tensor or ComplexTensor): Encoded feature [B, T, N]
             ilens (torch.Tensor): input lengths [Batch]
+            additional (Dict or None): other data included in model
+                NOTE: not used in this model
 
         Returns:
             masked (List[Union(torch.Tensor, ComplexTensor)]): [(B, T, N), ...]
diff --git a/espnet2/enh/separator/svoice_separator.py b/espnet2/enh/separator/svoice_separator.py
index e1179b90e65..54545ff13ea 100644
--- a/espnet2/enh/separator/svoice_separator.py
+++ b/espnet2/enh/separator/svoice_separator.py
@@ -1,15 +1,13 @@
-from collections import OrderedDict
 import math
-from typing import List
-from typing import Tuple
+from collections import OrderedDict
+from typing import Dict, List, Optional, Tuple
 
 import torch
 import torch.nn as nn
 import torch.nn.functional as F
 
 from espnet2.enh.layers.dpmulcat import DPMulCat
-from espnet2.enh.layers.dprnn import merge_feature
-from espnet2.enh.layers.dprnn import split_feature
+from espnet2.enh.layers.dprnn import merge_feature, split_feature
 from espnet2.enh.separator.abs_separator import AbsSeparator
 
 
@@ -145,13 +143,18 @@ def __init__(
         )
 
     def forward(
-        self, input: torch.Tensor, ilens: torch.Tensor
+        self,
+        input: torch.Tensor,
+        ilens: torch.Tensor,
+        additional: Optional[Dict] = None,
     ) -> Tuple[List[torch.Tensor], torch.Tensor, OrderedDict]:
         """Forward.
 
         Args:
             input (torch.Tensor or ComplexTensor): Encoded feature [B, T, N]
             ilens (torch.Tensor): input lengths [Batch]
+            additional (Dict or None): other data included in model
+                NOTE: not used in this model
 
         Returns:
             masked (List[Union(torch.Tensor, ComplexTensor)]): [(B, T, N), ...]
diff --git a/espnet2/enh/separator/tcn_separator.py b/espnet2/enh/separator/tcn_separator.py
index 56f7e053e01..0e34c540937 100644
--- a/espnet2/enh/separator/tcn_separator.py
+++ b/espnet2/enh/separator/tcn_separator.py
@@ -1,18 +1,15 @@
 from collections import OrderedDict
-from distutils.version import LooseVersion
-from typing import List
-from typing import Tuple
-from typing import Union
+from typing import Dict, List, Optional, Tuple, Union
 
 import torch
+from packaging.version import parse as V
 from torch_complex.tensor import ComplexTensor
 
 from espnet2.enh.layers.complex_utils import is_complex
 from espnet2.enh.layers.tcn import TemporalConvNet
 from espnet2.enh.separator.abs_separator import AbsSeparator
 
-
-is_torch_1_9_plus = LooseVersion(torch.__version__) >= LooseVersion("1.9.0")
+is_torch_1_9_plus = V(torch.__version__) >= V("1.9.0")
 
 
 class TCNSeparator(AbsSeparator):
@@ -65,13 +62,18 @@ def __init__(
         )
 
     def forward(
-        self, input: Union[torch.Tensor, ComplexTensor], ilens: torch.Tensor
+        self,
+        input: Union[torch.Tensor, ComplexTensor],
+        ilens: torch.Tensor,
+        additional: Optional[Dict] = None,
     ) -> Tuple[List[Union[torch.Tensor, ComplexTensor]], torch.Tensor, OrderedDict]:
         """Forward.
 
         Args:
             input (torch.Tensor or ComplexTensor): Encoded feature [B, T, N]
             ilens (torch.Tensor): input lengths [Batch]
+            additional (Dict or None): other data included in model
+                NOTE: not used in this model
 
         Returns:
             masked (List[Union(torch.Tensor, ComplexTensor)]): [(B, T, N), ...]
diff --git a/espnet2/enh/separator/transformer_separator.py b/espnet2/enh/separator/transformer_separator.py
index 346410e699e..499d9926e84 100644
--- a/espnet2/enh/separator/transformer_separator.py
+++ b/espnet2/enh/separator/transformer_separator.py
@@ -1,26 +1,22 @@
 from collections import OrderedDict
-from distutils.version import LooseVersion
-from typing import List
-from typing import Tuple
-from typing import Union
+from typing import Dict, List, Optional, Tuple, Union
 
 import torch
+from packaging.version import parse as V
 from torch_complex.tensor import ComplexTensor
 
-
+from espnet2.enh.layers.complex_utils import is_complex
+from espnet2.enh.separator.abs_separator import AbsSeparator
 from espnet.nets.pytorch_backend.nets_utils import make_non_pad_mask
-from espnet.nets.pytorch_backend.transformer.embedding import (
-    PositionalEncoding,  # noqa: H301
-    ScaledPositionalEncoding,  # noqa: H301
+from espnet.nets.pytorch_backend.transformer.embedding import (  # noqa: H301
+    PositionalEncoding,
+    ScaledPositionalEncoding,
 )
 from espnet.nets.pytorch_backend.transformer.encoder import (
-    Encoder as TransformerEncoder,  # noqa: H301
+    Encoder as TransformerEncoder,
 )
-from espnet2.enh.layers.complex_utils import is_complex
-from espnet2.enh.separator.abs_separator import AbsSeparator
-
 
-is_torch_1_9_plus = LooseVersion(torch.__version__) >= LooseVersion("1.9.0")
+is_torch_1_9_plus = V(torch.__version__) >= V("1.9.0")
 
 
 class TransformerSeparator(AbsSeparator):
@@ -105,13 +101,18 @@ def __init__(
         }[nonlinear]
 
     def forward(
-        self, input: Union[torch.Tensor, ComplexTensor], ilens: torch.Tensor
+        self,
+        input: Union[torch.Tensor, ComplexTensor],
+        ilens: torch.Tensor,
+        additional: Optional[Dict] = None,
     ) -> Tuple[List[Union[torch.Tensor, ComplexTensor]], torch.Tensor, OrderedDict]:
         """Forward.
 
         Args:
             input (torch.Tensor or ComplexTensor): Encoded feature [B, T, N]
             ilens (torch.Tensor): input lengths [Batch]
+            additional (Dict or None): other data included in model
+                NOTE: not used in this model
 
         Returns:
             masked (List[Union(torch.Tensor, ComplexTensor)]): [(B, T, N), ...]
diff --git a/espnet2/fileio/datadir_writer.py b/espnet2/fileio/datadir_writer.py
index bafdf984f19..625c73dbed7 100644
--- a/espnet2/fileio/datadir_writer.py
+++ b/espnet2/fileio/datadir_writer.py
@@ -1,9 +1,8 @@
+import warnings
 from pathlib import Path
 from typing import Union
-import warnings
 
-from typeguard import check_argument_types
-from typeguard import check_return_type
+from typeguard import check_argument_types, check_return_type
 
 
 class DatadirWriter:
diff --git a/espnet2/fileio/read_text.py b/espnet2/fileio/read_text.py
index e26e7a1c582..830c1651b2d 100644
--- a/espnet2/fileio/read_text.py
+++ b/espnet2/fileio/read_text.py
@@ -1,8 +1,6 @@
 import logging
 from pathlib import Path
-from typing import Dict
-from typing import List
-from typing import Union
+from typing import Dict, List, Union
 
 from typeguard import check_argument_types
 
diff --git a/espnet2/fileio/rttm.py b/espnet2/fileio/rttm.py
index 5b8a343f3dc..feec3a82f60 100644
--- a/espnet2/fileio/rttm.py
+++ b/espnet2/fileio/rttm.py
@@ -1,12 +1,9 @@
 import collections.abc
+import re
 from pathlib import Path
-from typing import Dict
-from typing import List
-from typing import Tuple
-from typing import Union
+from typing import Dict, List, Tuple, Union
 
 import numpy as np
-import re
 from typeguard import check_argument_types
 
 
diff --git a/espnet2/fst/lm_rescore.py b/espnet2/fst/lm_rescore.py
index 340bd409643..41d662c830f 100644
--- a/espnet2/fst/lm_rescore.py
+++ b/espnet2/fst/lm_rescore.py
@@ -1,8 +1,7 @@
-from typing import List
-from typing import Tuple
+import math
+from typing import List, Tuple
 
 import k2
-import math
 import torch
 
 
diff --git a/espnet2/gan_tts/abs_gan_tts.py b/espnet2/gan_tts/abs_gan_tts.py
index 248264ecbc9..feee1d293f0 100644
--- a/espnet2/gan_tts/abs_gan_tts.py
+++ b/espnet2/gan_tts/abs_gan_tts.py
@@ -3,11 +3,8 @@
 
 """GAN-based TTS abstrast class."""
 
-from abc import ABC
-from abc import abstractmethod
-
-from typing import Dict
-from typing import Union
+from abc import ABC, abstractmethod
+from typing import Dict, Union
 
 import torch
 
diff --git a/espnet2/gan_tts/espnet_model.py b/espnet2/gan_tts/espnet_model.py
index 34ca845f0fd..81d898df186 100644
--- a/espnet2/gan_tts/espnet_model.py
+++ b/espnet2/gan_tts/espnet_model.py
@@ -4,13 +4,10 @@
 """GAN-based text-to-speech ESPnet model."""
 
 from contextlib import contextmanager
-from distutils.version import LooseVersion
-from typing import Any
-from typing import Dict
-from typing import Optional
+from typing import Any, Dict, Optional
 
 import torch
-
+from packaging.version import parse as V
 from typeguard import check_argument_types
 
 from espnet2.gan_tts.abs_gan_tts import AbsGANTTS
@@ -19,7 +16,7 @@
 from espnet2.train.abs_gan_espnet_model import AbsGANESPnetModel
 from espnet2.tts.feats_extract.abs_feats_extract import AbsFeatsExtract
 
-if LooseVersion(torch.__version__) >= LooseVersion("1.6.0"):
+if V(torch.__version__) >= V("1.6.0"):
     from torch.cuda.amp import autocast
 else:
     # Nothing to do if torch < 1.6.0
diff --git a/espnet2/gan_tts/hifigan/__init__.py b/espnet2/gan_tts/hifigan/__init__.py
index c65d1896c03..f5b3fbe1080 100644
--- a/espnet2/gan_tts/hifigan/__init__.py
+++ b/espnet2/gan_tts/hifigan/__init__.py
@@ -1,8 +1,17 @@
-from espnet2.gan_tts.hifigan.hifigan import HiFiGANGenerator  # NOQA
-from espnet2.gan_tts.hifigan.hifigan import HiFiGANMultiPeriodDiscriminator  # NOQA
-from espnet2.gan_tts.hifigan.hifigan import HiFiGANMultiScaleDiscriminator  # NOQA
-from espnet2.gan_tts.hifigan.hifigan import (  # NOQA
-    HiFiGANMultiScaleMultiPeriodDiscriminator,  # NOQA
+from espnet2.gan_tts.hifigan.hifigan import (
+    HiFiGANGenerator,
+    HiFiGANMultiPeriodDiscriminator,
+    HiFiGANMultiScaleDiscriminator,
+    HiFiGANMultiScaleMultiPeriodDiscriminator,
+    HiFiGANPeriodDiscriminator,
+    HiFiGANScaleDiscriminator,
 )
-from espnet2.gan_tts.hifigan.hifigan import HiFiGANPeriodDiscriminator  # NOQA
-from espnet2.gan_tts.hifigan.hifigan import HiFiGANScaleDiscriminator  # NOQA
+
+__all__ = [
+    "HiFiGANGenerator",
+    "HiFiGANMultiPeriodDiscriminator",
+    "HiFiGANMultiScaleDiscriminator",
+    "HiFiGANMultiScaleMultiPeriodDiscriminator",
+    "HiFiGANPeriodDiscriminator",
+    "HiFiGANScaleDiscriminator",
+]
diff --git a/espnet2/gan_tts/hifigan/hifigan.py b/espnet2/gan_tts/hifigan/hifigan.py
index 516678366b1..18c311907a2 100644
--- a/espnet2/gan_tts/hifigan/hifigan.py
+++ b/espnet2/gan_tts/hifigan/hifigan.py
@@ -9,11 +9,7 @@
 
 import copy
 import logging
-
-from typing import Any
-from typing import Dict
-from typing import List
-from typing import Optional
+from typing import Any, Dict, List, Optional
 
 import numpy as np
 import torch
diff --git a/espnet2/gan_tts/hifigan/loss.py b/espnet2/gan_tts/hifigan/loss.py
index 083b5de6cb5..d16e12a70f4 100644
--- a/espnet2/gan_tts/hifigan/loss.py
+++ b/espnet2/gan_tts/hifigan/loss.py
@@ -7,10 +7,7 @@
 
 """
 
-from typing import List
-from typing import Optional
-from typing import Tuple
-from typing import Union
+from typing import List, Optional, Tuple, Union
 
 import torch
 import torch.nn.functional as F
diff --git a/espnet2/gan_tts/hifigan/residual_block.py b/espnet2/gan_tts/hifigan/residual_block.py
index c5ac2c4e2f5..a6ac90b1af6 100644
--- a/espnet2/gan_tts/hifigan/residual_block.py
+++ b/espnet2/gan_tts/hifigan/residual_block.py
@@ -7,9 +7,7 @@
 
 """
 
-from typing import Any
-from typing import Dict
-from typing import List
+from typing import Any, Dict, List
 
 import torch
 
diff --git a/espnet2/gan_tts/jets/__init__.py b/espnet2/gan_tts/jets/__init__.py
new file mode 100644
index 00000000000..393adad5c40
--- /dev/null
+++ b/espnet2/gan_tts/jets/__init__.py
@@ -0,0 +1 @@
+from espnet2.gan_tts.jets.jets import JETS  # NOQA
diff --git a/espnet2/gan_tts/jets/alignments.py b/espnet2/gan_tts/jets/alignments.py
new file mode 100644
index 00000000000..e35b63e3383
--- /dev/null
+++ b/espnet2/gan_tts/jets/alignments.py
@@ -0,0 +1,165 @@
+# Copyright 2022 Dan Lim
+#  Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
+
+import numpy as np
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from numba import jit
+
+
+class AlignmentModule(nn.Module):
+    """Alignment Learning Framework proposed for parallel TTS models in:
+
+    https://arxiv.org/abs/2108.10447
+
+    """
+
+    def __init__(self, adim, odim):
+        super().__init__()
+        self.t_conv1 = nn.Conv1d(adim, adim, kernel_size=3, padding=1)
+        self.t_conv2 = nn.Conv1d(adim, adim, kernel_size=1, padding=0)
+
+        self.f_conv1 = nn.Conv1d(odim, adim, kernel_size=3, padding=1)
+        self.f_conv2 = nn.Conv1d(adim, adim, kernel_size=3, padding=1)
+        self.f_conv3 = nn.Conv1d(adim, adim, kernel_size=1, padding=0)
+
+    def forward(self, text, feats, x_masks=None):
+        """Calculate alignment loss.
+
+        Args:
+            text (Tensor): Batched text embedding (B, T_text, adim).
+            feats (Tensor): Batched acoustic feature (B, T_feats, odim).
+            x_masks (Tensor): Mask tensor (B, T_text).
+
+        Returns:
+            Tensor: Log probability of attention matrix (B, T_feats, T_text).
+
+        """
+        text = text.transpose(1, 2)
+        text = F.relu(self.t_conv1(text))
+        text = self.t_conv2(text)
+        text = text.transpose(1, 2)
+
+        feats = feats.transpose(1, 2)
+        feats = F.relu(self.f_conv1(feats))
+        feats = F.relu(self.f_conv2(feats))
+        feats = self.f_conv3(feats)
+        feats = feats.transpose(1, 2)
+
+        dist = feats.unsqueeze(2) - text.unsqueeze(1)
+        dist = torch.norm(dist, p=2, dim=3)
+        score = -dist
+
+        if x_masks is not None:
+            x_masks = x_masks.unsqueeze(-2)
+            score = score.masked_fill(x_masks, -np.inf)
+
+        log_p_attn = F.log_softmax(score, dim=-1)
+        return log_p_attn
+
+
+@jit(nopython=True)
+def _monotonic_alignment_search(log_p_attn):
+    # https://arxiv.org/abs/2005.11129
+    T_mel = log_p_attn.shape[0]
+    T_inp = log_p_attn.shape[1]
+    Q = np.full((T_inp, T_mel), fill_value=-np.inf)
+
+    log_prob = log_p_attn.transpose(1, 0)  # -> (T_inp,T_mel)
+    # 1.  Q <- init first row for all j
+    for j in range(T_mel):
+        Q[0, j] = log_prob[0, : j + 1].sum()
+
+    # 2.
+    for j in range(1, T_mel):
+        for i in range(1, min(j + 1, T_inp)):
+            Q[i, j] = max(Q[i - 1, j - 1], Q[i, j - 1]) + log_prob[i, j]
+
+    # 3.
+    A = np.full((T_mel,), fill_value=T_inp - 1)
+    for j in range(T_mel - 2, -1, -1):  # T_mel-2, ..., 0
+        # 'i' in {A[j+1]-1, A[j+1]}
+        i_a = A[j + 1] - 1
+        i_b = A[j + 1]
+        if i_b == 0:
+            argmax_i = 0
+        elif Q[i_a, j] >= Q[i_b, j]:
+            argmax_i = i_a
+        else:
+            argmax_i = i_b
+        A[j] = argmax_i
+    return A
+
+
+def viterbi_decode(log_p_attn, text_lengths, feats_lengths):
+    """Extract duration from an attention probability matrix
+
+    Args:
+        log_p_attn (Tensor): Batched log probability of attention
+            matrix (B, T_feats, T_text).
+        text_lengths (Tensor): Text length tensor (B,).
+        feats_legnths (Tensor): Feature length tensor (B,).
+
+    Returns:
+        Tensor: Batched token duration extracted from `log_p_attn` (B, T_text).
+        Tensor: Binarization loss tensor ().
+
+    """
+    B = log_p_attn.size(0)
+    T_text = log_p_attn.size(2)
+    device = log_p_attn.device
+
+    bin_loss = 0
+    ds = torch.zeros((B, T_text), device=device)
+    for b in range(B):
+        cur_log_p_attn = log_p_attn[b, : feats_lengths[b], : text_lengths[b]]
+        viterbi = _monotonic_alignment_search(cur_log_p_attn.detach().cpu().numpy())
+        _ds = np.bincount(viterbi)
+        ds[b, : len(_ds)] = torch.from_numpy(_ds).to(device)
+
+        t_idx = torch.arange(feats_lengths[b])
+        bin_loss = bin_loss - cur_log_p_attn[t_idx, viterbi].mean()
+    bin_loss = bin_loss / B
+    return ds, bin_loss
+
+
+@jit(nopython=True)
+def _average_by_duration(ds, xs, text_lengths, feats_lengths):
+    B = ds.shape[0]
+    xs_avg = np.zeros_like(ds)
+    ds = ds.astype(np.int32)
+    for b in range(B):
+        t_text = text_lengths[b]
+        t_feats = feats_lengths[b]
+        d = ds[b, :t_text]
+        d_cumsum = d.cumsum()
+        d_cumsum = [0] + list(d_cumsum)
+        x = xs[b, :t_feats]
+        for n, (start, end) in enumerate(zip(d_cumsum[:-1], d_cumsum[1:])):
+            if len(x[start:end]) != 0:
+                xs_avg[b, n] = x[start:end].mean()
+            else:
+                xs_avg[b, n] = 0
+    return xs_avg
+
+
+def average_by_duration(ds, xs, text_lengths, feats_lengths):
+    """Average frame-level features into token-level according to durations
+
+    Args:
+        ds (Tensor): Batched token duration (B, T_text).
+        xs (Tensor): Batched feature sequences to be averaged (B, T_feats).
+        text_lengths (Tensor): Text length tensor (B,).
+        feats_lengths (Tensor): Feature length tensor (B,).
+
+    Returns:
+        Tensor: Batched feature averaged according to the token duration (B, T_text).
+
+    """
+    device = ds.device
+    args = [ds, xs, text_lengths, feats_lengths]
+    args = [arg.detach().cpu().numpy() for arg in args]
+    xs_avg = _average_by_duration(*args)
+    xs_avg = torch.from_numpy(xs_avg).to(device)
+    return xs_avg
diff --git a/espnet2/gan_tts/jets/generator.py b/espnet2/gan_tts/jets/generator.py
new file mode 100644
index 00000000000..61c7445e004
--- /dev/null
+++ b/espnet2/gan_tts/jets/generator.py
@@ -0,0 +1,788 @@
+# Copyright 2022 Dan Lim
+#  Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
+
+"""Generator module in JETS."""
+
+import logging
+from typing import Any, Dict, List, Optional, Sequence, Tuple
+
+import numpy as np
+import torch
+import torch.nn.functional as F
+
+from espnet2.gan_tts.hifigan import HiFiGANGenerator
+from espnet2.gan_tts.jets.alignments import (
+    AlignmentModule,
+    average_by_duration,
+    viterbi_decode,
+)
+from espnet2.gan_tts.jets.length_regulator import GaussianUpsampling
+from espnet2.gan_tts.utils import get_random_segments
+from espnet2.torch_utils.initialize import initialize
+from espnet2.tts.fastspeech2.variance_predictor import VariancePredictor
+from espnet2.tts.gst.style_encoder import StyleEncoder
+from espnet.nets.pytorch_backend.conformer.encoder import Encoder as ConformerEncoder
+from espnet.nets.pytorch_backend.fastspeech.duration_predictor import DurationPredictor
+from espnet.nets.pytorch_backend.nets_utils import make_non_pad_mask, make_pad_mask
+from espnet.nets.pytorch_backend.transformer.embedding import (
+    PositionalEncoding,
+    ScaledPositionalEncoding,
+)
+from espnet.nets.pytorch_backend.transformer.encoder import (
+    Encoder as TransformerEncoder,
+)
+
+
+class JETSGenerator(torch.nn.Module):
+    """Generator module in JETS."""
+
+    def __init__(
+        self,
+        idim: int,
+        odim: int,
+        adim: int = 256,
+        aheads: int = 2,
+        elayers: int = 4,
+        eunits: int = 1024,
+        dlayers: int = 4,
+        dunits: int = 1024,
+        positionwise_layer_type: str = "conv1d",
+        positionwise_conv_kernel_size: int = 1,
+        use_scaled_pos_enc: bool = True,
+        use_batch_norm: bool = True,
+        encoder_normalize_before: bool = True,
+        decoder_normalize_before: bool = True,
+        encoder_concat_after: bool = False,
+        decoder_concat_after: bool = False,
+        reduction_factor: int = 1,
+        encoder_type: str = "transformer",
+        decoder_type: str = "transformer",
+        transformer_enc_dropout_rate: float = 0.1,
+        transformer_enc_positional_dropout_rate: float = 0.1,
+        transformer_enc_attn_dropout_rate: float = 0.1,
+        transformer_dec_dropout_rate: float = 0.1,
+        transformer_dec_positional_dropout_rate: float = 0.1,
+        transformer_dec_attn_dropout_rate: float = 0.1,
+        # only for conformer
+        conformer_rel_pos_type: str = "legacy",
+        conformer_pos_enc_layer_type: str = "rel_pos",
+        conformer_self_attn_layer_type: str = "rel_selfattn",
+        conformer_activation_type: str = "swish",
+        use_macaron_style_in_conformer: bool = True,
+        use_cnn_in_conformer: bool = True,
+        zero_triu: bool = False,
+        conformer_enc_kernel_size: int = 7,
+        conformer_dec_kernel_size: int = 31,
+        # duration predictor
+        duration_predictor_layers: int = 2,
+        duration_predictor_chans: int = 384,
+        duration_predictor_kernel_size: int = 3,
+        duration_predictor_dropout_rate: float = 0.1,
+        # energy predictor
+        energy_predictor_layers: int = 2,
+        energy_predictor_chans: int = 384,
+        energy_predictor_kernel_size: int = 3,
+        energy_predictor_dropout: float = 0.5,
+        energy_embed_kernel_size: int = 9,
+        energy_embed_dropout: float = 0.5,
+        stop_gradient_from_energy_predictor: bool = False,
+        # pitch predictor
+        pitch_predictor_layers: int = 2,
+        pitch_predictor_chans: int = 384,
+        pitch_predictor_kernel_size: int = 3,
+        pitch_predictor_dropout: float = 0.5,
+        pitch_embed_kernel_size: int = 9,
+        pitch_embed_dropout: float = 0.5,
+        stop_gradient_from_pitch_predictor: bool = False,
+        # extra embedding related
+        spks: Optional[int] = None,
+        langs: Optional[int] = None,
+        spk_embed_dim: Optional[int] = None,
+        spk_embed_integration_type: str = "add",
+        use_gst: bool = False,
+        gst_tokens: int = 10,
+        gst_heads: int = 4,
+        gst_conv_layers: int = 6,
+        gst_conv_chans_list: Sequence[int] = (32, 32, 64, 64, 128, 128),
+        gst_conv_kernel_size: int = 3,
+        gst_conv_stride: int = 2,
+        gst_gru_layers: int = 1,
+        gst_gru_units: int = 128,
+        # training related
+        init_type: str = "xavier_uniform",
+        init_enc_alpha: float = 1.0,
+        init_dec_alpha: float = 1.0,
+        use_masking: bool = False,
+        use_weighted_masking: bool = False,
+        segment_size: int = 64,
+        # hifigan generator
+        generator_out_channels: int = 1,
+        generator_channels: int = 512,
+        generator_global_channels: int = -1,
+        generator_kernel_size: int = 7,
+        generator_upsample_scales: List[int] = [8, 8, 2, 2],
+        generator_upsample_kernel_sizes: List[int] = [16, 16, 4, 4],
+        generator_resblock_kernel_sizes: List[int] = [3, 7, 11],
+        generator_resblock_dilations: List[List[int]] = [
+            [1, 3, 5],
+            [1, 3, 5],
+            [1, 3, 5],
+        ],
+        generator_use_additional_convs: bool = True,
+        generator_bias: bool = True,
+        generator_nonlinear_activation: str = "LeakyReLU",
+        generator_nonlinear_activation_params: Dict[str, Any] = {"negative_slope": 0.1},
+        generator_use_weight_norm: bool = True,
+    ):
+        """Initialize JETS generator module.
+
+        Args:
+            idim (int): Dimension of the inputs.
+            odim (int): Dimension of the outputs.
+            elayers (int): Number of encoder layers.
+            eunits (int): Number of encoder hidden units.
+            dlayers (int): Number of decoder layers.
+            dunits (int): Number of decoder hidden units.
+            use_scaled_pos_enc (bool): Whether to use trainable scaled pos encoding.
+            use_batch_norm (bool): Whether to use batch normalization in encoder prenet.
+            encoder_normalize_before (bool): Whether to apply layernorm layer before
+                encoder block.
+            decoder_normalize_before (bool): Whether to apply layernorm layer before
+                decoder block.
+            encoder_concat_after (bool): Whether to concatenate attention layer's input
+                and output in encoder.
+            decoder_concat_after (bool): Whether to concatenate attention layer's input
+                and output in decoder.
+            reduction_factor (int): Reduction factor.
+            encoder_type (str): Encoder type ("transformer" or "conformer").
+            decoder_type (str): Decoder type ("transformer" or "conformer").
+            transformer_enc_dropout_rate (float): Dropout rate in encoder except
+                attention and positional encoding.
+            transformer_enc_positional_dropout_rate (float): Dropout rate after encoder
+                positional encoding.
+            transformer_enc_attn_dropout_rate (float): Dropout rate in encoder
+                self-attention module.
+            transformer_dec_dropout_rate (float): Dropout rate in decoder except
+                attention & positional encoding.
+            transformer_dec_positional_dropout_rate (float): Dropout rate after decoder
+                positional encoding.
+            transformer_dec_attn_dropout_rate (float): Dropout rate in decoder
+                self-attention module.
+            conformer_rel_pos_type (str): Relative pos encoding type in conformer.
+            conformer_pos_enc_layer_type (str): Pos encoding layer type in conformer.
+            conformer_self_attn_layer_type (str): Self-attention layer type in conformer
+            conformer_activation_type (str): Activation function type in conformer.
+            use_macaron_style_in_conformer: Whether to use macaron style FFN.
+            use_cnn_in_conformer: Whether to use CNN in conformer.
+            zero_triu: Whether to use zero triu in relative self-attention module.
+            conformer_enc_kernel_size: Kernel size of encoder conformer.
+            conformer_dec_kernel_size: Kernel size of decoder conformer.
+            duration_predictor_layers (int): Number of duration predictor layers.
+            duration_predictor_chans (int): Number of duration predictor channels.
+            duration_predictor_kernel_size (int): Kernel size of duration predictor.
+            duration_predictor_dropout_rate (float): Dropout rate in duration predictor.
+            pitch_predictor_layers (int): Number of pitch predictor layers.
+            pitch_predictor_chans (int): Number of pitch predictor channels.
+            pitch_predictor_kernel_size (int): Kernel size of pitch predictor.
+            pitch_predictor_dropout_rate (float): Dropout rate in pitch predictor.
+            pitch_embed_kernel_size (float): Kernel size of pitch embedding.
+            pitch_embed_dropout_rate (float): Dropout rate for pitch embedding.
+            stop_gradient_from_pitch_predictor: Whether to stop gradient from pitch
+                predictor to encoder.
+            energy_predictor_layers (int): Number of energy predictor layers.
+            energy_predictor_chans (int): Number of energy predictor channels.
+            energy_predictor_kernel_size (int): Kernel size of energy predictor.
+            energy_predictor_dropout_rate (float): Dropout rate in energy predictor.
+            energy_embed_kernel_size (float): Kernel size of energy embedding.
+            energy_embed_dropout_rate (float): Dropout rate for energy embedding.
+            stop_gradient_from_energy_predictor: Whether to stop gradient from energy
+                predictor to encoder.
+            spks (Optional[int]): Number of speakers. If set to > 1, assume that the
+                sids will be provided as the input and use sid embedding layer.
+            langs (Optional[int]): Number of languages. If set to > 1, assume that the
+                lids will be provided as the input and use sid embedding layer.
+            spk_embed_dim (Optional[int]): Speaker embedding dimension. If set to > 0,
+                assume that spembs will be provided as the input.
+            spk_embed_integration_type: How to integrate speaker embedding.
+            use_gst (str): Whether to use global style token.
+            gst_tokens (int): The number of GST embeddings.
+            gst_heads (int): The number of heads in GST multihead attention.
+            gst_conv_layers (int): The number of conv layers in GST.
+            gst_conv_chans_list: (Sequence[int]):
+                List of the number of channels of conv layers in GST.
+            gst_conv_kernel_size (int): Kernel size of conv layers in GST.
+            gst_conv_stride (int): Stride size of conv layers in GST.
+            gst_gru_layers (int): The number of GRU layers in GST.
+            gst_gru_units (int): The number of GRU units in GST.
+            init_type (str): How to initialize transformer parameters.
+            init_enc_alpha (float): Initial value of alpha in scaled pos encoding of the
+                encoder.
+            init_dec_alpha (float): Initial value of alpha in scaled pos encoding of the
+                decoder.
+            use_masking (bool): Whether to apply masking for padded part in loss
+                calculation.
+            use_weighted_masking (bool): Whether to apply weighted masking in loss
+                calculation.
+            segment_size (int): Segment size for random windowed discriminator
+            generator_out_channels (int): Number of output channels.
+            generator_channels (int): Number of hidden representation channels.
+            generator_global_channels (int): Number of global conditioning channels.
+            generator_kernel_size (int): Kernel size of initial and final conv layer.
+            generator_upsample_scales (List[int]): List of upsampling scales.
+            generator_upsample_kernel_sizes (List[int]): List of kernel sizes for
+                upsample layers.
+            generator_resblock_kernel_sizes (List[int]): List of kernel sizes for
+                residual blocks.
+            generator_resblock_dilations (List[List[int]]): List of list of dilations
+                for residual blocks.
+            generator_use_additional_convs (bool): Whether to use additional conv layers
+                in residual blocks.
+            generator_bias (bool): Whether to add bias parameter in convolution layers.
+            generator_nonlinear_activation (str): Activation function module name.
+            generator_nonlinear_activation_params (Dict[str, Any]): Hyperparameters for
+                activation function.
+            generator_use_weight_norm (bool): Whether to use weight norm.
+                If set to true, it will be applied to all of the conv layers.
+
+        """
+        super().__init__()
+        self.segment_size = segment_size
+        self.upsample_factor = int(np.prod(generator_upsample_scales))
+        self.idim = idim
+        self.odim = odim
+        self.reduction_factor = reduction_factor
+        self.encoder_type = encoder_type
+        self.decoder_type = decoder_type
+        self.stop_gradient_from_pitch_predictor = stop_gradient_from_pitch_predictor
+        self.stop_gradient_from_energy_predictor = stop_gradient_from_energy_predictor
+        self.use_scaled_pos_enc = use_scaled_pos_enc
+        self.use_gst = use_gst
+
+        # use idx 0 as padding idx
+        self.padding_idx = 0
+
+        # get positional encoding class
+        pos_enc_class = (
+            ScaledPositionalEncoding if self.use_scaled_pos_enc else PositionalEncoding
+        )
+
+        # check relative positional encoding compatibility
+        if "conformer" in [encoder_type, decoder_type]:
+            if conformer_rel_pos_type == "legacy":
+                if conformer_pos_enc_layer_type == "rel_pos":
+                    conformer_pos_enc_layer_type = "legacy_rel_pos"
+                    logging.warning(
+                        "Fallback to conformer_pos_enc_layer_type = 'legacy_rel_pos' "
+                        "due to the compatibility. If you want to use the new one, "
+                        "please use conformer_pos_enc_layer_type = 'latest'."
+                    )
+                if conformer_self_attn_layer_type == "rel_selfattn":
+                    conformer_self_attn_layer_type = "legacy_rel_selfattn"
+                    logging.warning(
+                        "Fallback to "
+                        "conformer_self_attn_layer_type = 'legacy_rel_selfattn' "
+                        "due to the compatibility. If you want to use the new one, "
+                        "please use conformer_pos_enc_layer_type = 'latest'."
+                    )
+            elif conformer_rel_pos_type == "latest":
+                assert conformer_pos_enc_layer_type != "legacy_rel_pos"
+                assert conformer_self_attn_layer_type != "legacy_rel_selfattn"
+            else:
+                raise ValueError(f"Unknown rel_pos_type: {conformer_rel_pos_type}")
+
+        # define encoder
+        encoder_input_layer = torch.nn.Embedding(
+            num_embeddings=idim, embedding_dim=adim, padding_idx=self.padding_idx
+        )
+        if encoder_type == "transformer":
+            self.encoder = TransformerEncoder(
+                idim=idim,
+                attention_dim=adim,
+                attention_heads=aheads,
+                linear_units=eunits,
+                num_blocks=elayers,
+                input_layer=encoder_input_layer,
+                dropout_rate=transformer_enc_dropout_rate,
+                positional_dropout_rate=transformer_enc_positional_dropout_rate,
+                attention_dropout_rate=transformer_enc_attn_dropout_rate,
+                pos_enc_class=pos_enc_class,
+                normalize_before=encoder_normalize_before,
+                concat_after=encoder_concat_after,
+                positionwise_layer_type=positionwise_layer_type,
+                positionwise_conv_kernel_size=positionwise_conv_kernel_size,
+            )
+        elif encoder_type == "conformer":
+            self.encoder = ConformerEncoder(
+                idim=idim,
+                attention_dim=adim,
+                attention_heads=aheads,
+                linear_units=eunits,
+                num_blocks=elayers,
+                input_layer=encoder_input_layer,
+                dropout_rate=transformer_enc_dropout_rate,
+                positional_dropout_rate=transformer_enc_positional_dropout_rate,
+                attention_dropout_rate=transformer_enc_attn_dropout_rate,
+                normalize_before=encoder_normalize_before,
+                concat_after=encoder_concat_after,
+                positionwise_layer_type=positionwise_layer_type,
+                positionwise_conv_kernel_size=positionwise_conv_kernel_size,
+                macaron_style=use_macaron_style_in_conformer,
+                pos_enc_layer_type=conformer_pos_enc_layer_type,
+                selfattention_layer_type=conformer_self_attn_layer_type,
+                activation_type=conformer_activation_type,
+                use_cnn_module=use_cnn_in_conformer,
+                cnn_module_kernel=conformer_enc_kernel_size,
+                zero_triu=zero_triu,
+            )
+        else:
+            raise ValueError(f"{encoder_type} is not supported.")
+
+        # define GST
+        if self.use_gst:
+            self.gst = StyleEncoder(
+                idim=odim,  # the input is mel-spectrogram
+                gst_tokens=gst_tokens,
+                gst_token_dim=adim,
+                gst_heads=gst_heads,
+                conv_layers=gst_conv_layers,
+                conv_chans_list=gst_conv_chans_list,
+                conv_kernel_size=gst_conv_kernel_size,
+                conv_stride=gst_conv_stride,
+                gru_layers=gst_gru_layers,
+                gru_units=gst_gru_units,
+            )
+
+        # define spk and lang embedding
+        self.spks = None
+        if spks is not None and spks > 1:
+            self.spks = spks
+            self.sid_emb = torch.nn.Embedding(spks, adim)
+        self.langs = None
+        if langs is not None and langs > 1:
+            self.langs = langs
+            self.lid_emb = torch.nn.Embedding(langs, adim)
+
+        # define additional projection for speaker embedding
+        self.spk_embed_dim = None
+        if spk_embed_dim is not None and spk_embed_dim > 0:
+            self.spk_embed_dim = spk_embed_dim
+            self.spk_embed_integration_type = spk_embed_integration_type
+        if self.spk_embed_dim is not None:
+            if self.spk_embed_integration_type == "add":
+                self.projection = torch.nn.Linear(self.spk_embed_dim, adim)
+            else:
+                self.projection = torch.nn.Linear(adim + self.spk_embed_dim, adim)
+
+        # define duration predictor
+        self.duration_predictor = DurationPredictor(
+            idim=adim,
+            n_layers=duration_predictor_layers,
+            n_chans=duration_predictor_chans,
+            kernel_size=duration_predictor_kernel_size,
+            dropout_rate=duration_predictor_dropout_rate,
+        )
+
+        # define pitch predictor
+        self.pitch_predictor = VariancePredictor(
+            idim=adim,
+            n_layers=pitch_predictor_layers,
+            n_chans=pitch_predictor_chans,
+            kernel_size=pitch_predictor_kernel_size,
+            dropout_rate=pitch_predictor_dropout,
+        )
+        # NOTE(kan-bayashi): We use continuous pitch + FastPitch style avg
+        self.pitch_embed = torch.nn.Sequential(
+            torch.nn.Conv1d(
+                in_channels=1,
+                out_channels=adim,
+                kernel_size=pitch_embed_kernel_size,
+                padding=(pitch_embed_kernel_size - 1) // 2,
+            ),
+            torch.nn.Dropout(pitch_embed_dropout),
+        )
+
+        # define energy predictor
+        self.energy_predictor = VariancePredictor(
+            idim=adim,
+            n_layers=energy_predictor_layers,
+            n_chans=energy_predictor_chans,
+            kernel_size=energy_predictor_kernel_size,
+            dropout_rate=energy_predictor_dropout,
+        )
+        # NOTE(kan-bayashi): We use continuous enegy + FastPitch style avg
+        self.energy_embed = torch.nn.Sequential(
+            torch.nn.Conv1d(
+                in_channels=1,
+                out_channels=adim,
+                kernel_size=energy_embed_kernel_size,
+                padding=(energy_embed_kernel_size - 1) // 2,
+            ),
+            torch.nn.Dropout(energy_embed_dropout),
+        )
+
+        # define AlignmentModule
+        self.alignment_module = AlignmentModule(adim, odim)
+
+        # define length regulator
+        self.length_regulator = GaussianUpsampling()
+
+        # define decoder
+        # NOTE: we use encoder as decoder
+        # because fastspeech's decoder is the same as encoder
+        if decoder_type == "transformer":
+            self.decoder = TransformerEncoder(
+                idim=0,
+                attention_dim=adim,
+                attention_heads=aheads,
+                linear_units=dunits,
+                num_blocks=dlayers,
+                input_layer=None,
+                dropout_rate=transformer_dec_dropout_rate,
+                positional_dropout_rate=transformer_dec_positional_dropout_rate,
+                attention_dropout_rate=transformer_dec_attn_dropout_rate,
+                pos_enc_class=pos_enc_class,
+                normalize_before=decoder_normalize_before,
+                concat_after=decoder_concat_after,
+                positionwise_layer_type=positionwise_layer_type,
+                positionwise_conv_kernel_size=positionwise_conv_kernel_size,
+            )
+        elif decoder_type == "conformer":
+            self.decoder = ConformerEncoder(
+                idim=0,
+                attention_dim=adim,
+                attention_heads=aheads,
+                linear_units=dunits,
+                num_blocks=dlayers,
+                input_layer=None,
+                dropout_rate=transformer_dec_dropout_rate,
+                positional_dropout_rate=transformer_dec_positional_dropout_rate,
+                attention_dropout_rate=transformer_dec_attn_dropout_rate,
+                normalize_before=decoder_normalize_before,
+                concat_after=decoder_concat_after,
+                positionwise_layer_type=positionwise_layer_type,
+                positionwise_conv_kernel_size=positionwise_conv_kernel_size,
+                macaron_style=use_macaron_style_in_conformer,
+                pos_enc_layer_type=conformer_pos_enc_layer_type,
+                selfattention_layer_type=conformer_self_attn_layer_type,
+                activation_type=conformer_activation_type,
+                use_cnn_module=use_cnn_in_conformer,
+                cnn_module_kernel=conformer_dec_kernel_size,
+            )
+        else:
+            raise ValueError(f"{decoder_type} is not supported.")
+
+        # define hifigan generator
+        self.generator = HiFiGANGenerator(
+            in_channels=adim,
+            out_channels=generator_out_channels,
+            channels=generator_channels,
+            global_channels=generator_global_channels,
+            kernel_size=generator_kernel_size,
+            upsample_scales=generator_upsample_scales,
+            upsample_kernel_sizes=generator_upsample_kernel_sizes,
+            resblock_kernel_sizes=generator_resblock_kernel_sizes,
+            resblock_dilations=generator_resblock_dilations,
+            use_additional_convs=generator_use_additional_convs,
+            bias=generator_bias,
+            nonlinear_activation=generator_nonlinear_activation,
+            nonlinear_activation_params=generator_nonlinear_activation_params,
+            use_weight_norm=generator_use_weight_norm,
+        )
+
+        # initialize parameters
+        self._reset_parameters(
+            init_type=init_type,
+            init_enc_alpha=init_enc_alpha,
+            init_dec_alpha=init_dec_alpha,
+        )
+
+    def forward(
+        self,
+        text: torch.Tensor,
+        text_lengths: torch.Tensor,
+        feats: torch.Tensor,
+        feats_lengths: torch.Tensor,
+        pitch: torch.Tensor,
+        pitch_lengths: torch.Tensor,
+        energy: torch.Tensor,
+        energy_lengths: torch.Tensor,
+        sids: Optional[torch.Tensor] = None,
+        spembs: Optional[torch.Tensor] = None,
+        lids: Optional[torch.Tensor] = None,
+    ) -> Tuple[
+        torch.Tensor,
+        torch.Tensor,
+        torch.Tensor,
+        torch.Tensor,
+        torch.Tensor,
+        torch.Tensor,
+        torch.Tensor,
+        torch.Tensor,
+        torch.Tensor,
+        torch.Tensor,
+    ]:
+        """Calculate forward propagation.
+
+        Args:
+            text (Tensor): Text index tensor (B, T_text).
+            text_lengths (Tensor): Text length tensor (B,).
+            feats (Tensor): Feature tensor (B, T_feats, aux_channels).
+            feats_lengths (Tensor): Feature length tensor (B,).
+            pitch (Tensor): Batch of padded token-averaged pitch (B, T_text, 1).
+            pitch_lengths (LongTensor): Batch of pitch lengths (B, T_text).
+            energy (Tensor): Batch of padded token-averaged energy (B, T_text, 1).
+            energy_lengths (LongTensor): Batch of energy lengths (B, T_text).
+            sids (Optional[Tensor]): Speaker index tensor (B,) or (B, 1).
+            spembs (Optional[Tensor]): Speaker embedding tensor (B, spk_embed_dim).
+            lids (Optional[Tensor]): Language index tensor (B,) or (B, 1).
+
+        Returns:
+            Tensor: Waveform tensor (B, 1, segment_size * upsample_factor).
+            Tensor: Binarization loss ().
+            Tensor: Log probability attention matrix (B, T_feats, T_text).
+            Tensor: Segments start index tensor (B,).
+            Tensor: predicted duration (B, T_text).
+            Tensor: ground-truth duration obtained from an alignment module (B, T_text).
+            Tensor: predicted pitch (B, T_text,1).
+            Tensor: ground-truth averaged pitch (B, T_text, 1).
+            Tensor: predicted energy (B, T_text, 1).
+            Tensor: ground-truth averaged energy (B, T_text, 1).
+
+        """
+        text = text[:, : text_lengths.max()]  # for data-parallel
+        feats = feats[:, : feats_lengths.max()]  # for data-parallel
+        pitch = pitch[:, : pitch_lengths.max()]  # for data-parallel
+        energy = energy[:, : energy_lengths.max()]  # for data-parallel
+
+        # forward encoder
+        x_masks = self._source_mask(text_lengths)
+        hs, _ = self.encoder(text, x_masks)  # (B, T_text, adim)
+
+        # integrate with GST
+        if self.use_gst:
+            style_embs = self.gst(feats)
+            hs = hs + style_embs.unsqueeze(1)
+
+        # integrate with SID and LID embeddings
+        if self.spks is not None:
+            sid_embs = self.sid_emb(sids.view(-1))
+            hs = hs + sid_embs.unsqueeze(1)
+        if self.langs is not None:
+            lid_embs = self.lid_emb(lids.view(-1))
+            hs = hs + lid_embs.unsqueeze(1)
+
+        # integrate speaker embedding
+        if self.spk_embed_dim is not None:
+            hs = self._integrate_with_spk_embed(hs, spembs)
+
+        # forward alignment module and obtain duration, averaged pitch, energy
+        h_masks = make_pad_mask(text_lengths).to(hs.device)
+        log_p_attn = self.alignment_module(hs, feats, h_masks)
+        ds, bin_loss = viterbi_decode(log_p_attn, text_lengths, feats_lengths)
+        ps = average_by_duration(
+            ds, pitch.squeeze(-1), text_lengths, feats_lengths
+        ).unsqueeze(-1)
+        es = average_by_duration(
+            ds, energy.squeeze(-1), text_lengths, feats_lengths
+        ).unsqueeze(-1)
+
+        # forward duration predictor and variance predictors
+        if self.stop_gradient_from_pitch_predictor:
+            p_outs = self.pitch_predictor(hs.detach(), h_masks.unsqueeze(-1))
+        else:
+            p_outs = self.pitch_predictor(hs, h_masks.unsqueeze(-1))
+        if self.stop_gradient_from_energy_predictor:
+            e_outs = self.energy_predictor(hs.detach(), h_masks.unsqueeze(-1))
+        else:
+            e_outs = self.energy_predictor(hs, h_masks.unsqueeze(-1))
+        d_outs = self.duration_predictor(hs, h_masks)
+
+        # use groundtruth in training
+        p_embs = self.pitch_embed(ps.transpose(1, 2)).transpose(1, 2)
+        e_embs = self.energy_embed(es.transpose(1, 2)).transpose(1, 2)
+        hs = hs + e_embs + p_embs
+
+        # upsampling
+        h_masks = make_non_pad_mask(feats_lengths).to(hs.device)
+        d_masks = make_non_pad_mask(text_lengths).to(ds.device)
+        hs = self.length_regulator(hs, ds, h_masks, d_masks)  # (B, T_feats, adim)
+
+        # forward decoder
+        h_masks = self._source_mask(feats_lengths)
+        zs, _ = self.decoder(hs, h_masks)  # (B, T_feats, adim)
+
+        # get random segments
+        z_segments, z_start_idxs = get_random_segments(
+            zs.transpose(1, 2),
+            feats_lengths,
+            self.segment_size,
+        )
+        # forward generator
+        wav = self.generator(z_segments)
+
+        return (
+            wav,
+            bin_loss,
+            log_p_attn,
+            z_start_idxs,
+            d_outs,
+            ds,
+            p_outs,
+            ps,
+            e_outs,
+            es,
+        )
+
+    def inference(
+        self,
+        text: torch.Tensor,
+        text_lengths: torch.Tensor,
+        feats: Optional[torch.Tensor] = None,
+        feats_lengths: Optional[torch.Tensor] = None,
+        pitch: Optional[torch.Tensor] = None,
+        energy: Optional[torch.Tensor] = None,
+        sids: Optional[torch.Tensor] = None,
+        spembs: Optional[torch.Tensor] = None,
+        lids: Optional[torch.Tensor] = None,
+        use_teacher_forcing: bool = False,
+    ) -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+        """Run inference.
+
+        Args:
+            text (Tensor): Input text index tensor (B, T_text,).
+            text_lengths (Tensor): Text length tensor (B,).
+            feats (Tensor): Feature tensor (B, T_feats, aux_channels).
+            feats_lengths (Tensor): Feature length tensor (B,).
+            pitch (Tensor): Pitch tensor (B, T_feats, 1)
+            energy (Tensor): Energy tensor (B, T_feats, 1)
+            sids (Optional[Tensor]): Speaker index tensor (B,) or (B, 1).
+            spembs (Optional[Tensor]): Speaker embedding tensor (B, spk_embed_dim).
+            lids (Optional[Tensor]): Language index tensor (B,) or (B, 1).
+            use_teacher_forcing (bool): Whether to use teacher forcing.
+
+        Returns:
+            Tensor: Generated waveform tensor (B, T_wav).
+            Tensor: Duration tensor (B, T_text).
+
+        """
+        # forward encoder
+        x_masks = self._source_mask(text_lengths)
+        hs, _ = self.encoder(text, x_masks)  # (B, T_text, adim)
+
+        # integrate with GST
+        if self.use_gst:
+            style_embs = self.gst(feats)
+            hs = hs + style_embs.unsqueeze(1)
+
+        # integrate with SID and LID embeddings
+        if self.spks is not None:
+            sid_embs = self.sid_emb(sids.view(-1))
+            hs = hs + sid_embs.unsqueeze(1)
+        if self.langs is not None:
+            lid_embs = self.lid_emb(lids.view(-1))
+            hs = hs + lid_embs.unsqueeze(1)
+
+        # integrate speaker embedding
+        if self.spk_embed_dim is not None:
+            hs = self._integrate_with_spk_embed(hs, spembs)
+
+        h_masks = make_pad_mask(text_lengths).to(hs.device)
+        if use_teacher_forcing:
+            # forward alignment module and obtain duration, averaged pitch, energy
+            log_p_attn = self.alignment_module(hs, feats, h_masks)
+            d_outs, _ = viterbi_decode(log_p_attn, text_lengths, feats_lengths)
+            p_outs = average_by_duration(
+                d_outs, pitch.squeeze(-1), text_lengths, feats_lengths
+            ).unsqueeze(-1)
+            e_outs = average_by_duration(
+                d_outs, energy.squeeze(-1), text_lengths, feats_lengths
+            ).unsqueeze(-1)
+        else:
+            # forward duration predictor and variance predictors
+            p_outs = self.pitch_predictor(hs, h_masks.unsqueeze(-1))
+            e_outs = self.energy_predictor(hs, h_masks.unsqueeze(-1))
+            d_outs = self.duration_predictor.inference(hs, h_masks)
+
+        p_embs = self.pitch_embed(p_outs.transpose(1, 2)).transpose(1, 2)
+        e_embs = self.energy_embed(e_outs.transpose(1, 2)).transpose(1, 2)
+        hs = hs + e_embs + p_embs
+
+        # upsampling
+        if feats_lengths is not None:
+            h_masks = make_non_pad_mask(feats_lengths).to(hs.device)
+        else:
+            h_masks = None
+        d_masks = make_non_pad_mask(text_lengths).to(d_outs.device)
+        hs = self.length_regulator(hs, d_outs, h_masks, d_masks)  # (B, T_feats, adim)
+
+        # forward decoder
+        if feats_lengths is not None:
+            h_masks = self._source_mask(feats_lengths)
+        else:
+            h_masks = None
+        zs, _ = self.decoder(hs, h_masks)  # (B, T_feats, adim)
+
+        # forward generator
+        wav = self.generator(zs.transpose(1, 2))
+
+        return wav.squeeze(1), d_outs
+
+    def _integrate_with_spk_embed(
+        self, hs: torch.Tensor, spembs: torch.Tensor
+    ) -> torch.Tensor:
+        """Integrate speaker embedding with hidden states.
+
+        Args:
+            hs (Tensor): Batch of hidden state sequences (B, T_text, adim).
+            spembs (Tensor): Batch of speaker embeddings (B, spk_embed_dim).
+
+        Returns:
+            Tensor: Batch of integrated hidden state sequences (B, T_text, adim).
+
+        """
+        if self.spk_embed_integration_type == "add":
+            # apply projection and then add to hidden states
+            spembs = self.projection(F.normalize(spembs))
+            hs = hs + spembs.unsqueeze(1)
+        elif self.spk_embed_integration_type == "concat":
+            # concat hidden states with spk embeds and then apply projection
+            spembs = F.normalize(spembs).unsqueeze(1).expand(-1, hs.size(1), -1)
+            hs = self.projection(torch.cat([hs, spembs], dim=-1))
+        else:
+            raise NotImplementedError("support only add or concat.")
+
+        return hs
+
+    def _source_mask(self, ilens: torch.Tensor) -> torch.Tensor:
+        """Make masks for self-attention.
+
+        Args:
+            ilens (LongTensor): Batch of lengths (B,).
+
+        Returns:
+            Tensor: Mask tensor for self-attention.
+                dtype=torch.uint8 in PyTorch 1.2-
+                dtype=torch.bool in PyTorch 1.2+ (including 1.2)
+
+        Examples:
+            >>> ilens = [5, 3]
+            >>> self._source_mask(ilens)
+            tensor([[[1, 1, 1, 1, 1],
+                     [1, 1, 1, 0, 0]]], dtype=torch.uint8)
+
+        """
+        x_masks = make_non_pad_mask(ilens).to(next(self.parameters()).device)
+        return x_masks.unsqueeze(-2)
+
+    def _reset_parameters(
+        self, init_type: str, init_enc_alpha: float, init_dec_alpha: float
+    ):
+        # initialize parameters
+        if init_type != "pytorch":
+            initialize(self, init_type)
+
+        # initialize alpha in scaled positional encoding
+        if self.encoder_type == "transformer" and self.use_scaled_pos_enc:
+            self.encoder.embed[-1].alpha.data = torch.tensor(init_enc_alpha)
+        if self.decoder_type == "transformer" and self.use_scaled_pos_enc:
+            self.decoder.embed[-1].alpha.data = torch.tensor(init_dec_alpha)
diff --git a/espnet2/gan_tts/jets/jets.py b/espnet2/gan_tts/jets/jets.py
new file mode 100644
index 00000000000..201e277c3f1
--- /dev/null
+++ b/espnet2/gan_tts/jets/jets.py
@@ -0,0 +1,651 @@
+# Copyright 2022 Dan Lim
+#  Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
+
+"""JETS module for GAN-TTS task."""
+
+from typing import Any, Dict, Optional
+
+import torch
+from typeguard import check_argument_types
+
+from espnet2.gan_tts.abs_gan_tts import AbsGANTTS
+from espnet2.gan_tts.hifigan import (
+    HiFiGANMultiPeriodDiscriminator,
+    HiFiGANMultiScaleDiscriminator,
+    HiFiGANMultiScaleMultiPeriodDiscriminator,
+    HiFiGANPeriodDiscriminator,
+    HiFiGANScaleDiscriminator,
+)
+from espnet2.gan_tts.hifigan.loss import (
+    DiscriminatorAdversarialLoss,
+    FeatureMatchLoss,
+    GeneratorAdversarialLoss,
+    MelSpectrogramLoss,
+)
+from espnet2.gan_tts.jets.generator import JETSGenerator
+from espnet2.gan_tts.jets.loss import ForwardSumLoss, VarianceLoss
+from espnet2.gan_tts.utils import get_segments
+from espnet2.torch_utils.device_funcs import force_gatherable
+
+AVAILABLE_GENERATERS = {
+    "jets_generator": JETSGenerator,
+}
+AVAILABLE_DISCRIMINATORS = {
+    "hifigan_period_discriminator": HiFiGANPeriodDiscriminator,
+    "hifigan_scale_discriminator": HiFiGANScaleDiscriminator,
+    "hifigan_multi_period_discriminator": HiFiGANMultiPeriodDiscriminator,
+    "hifigan_multi_scale_discriminator": HiFiGANMultiScaleDiscriminator,
+    "hifigan_multi_scale_multi_period_discriminator": HiFiGANMultiScaleMultiPeriodDiscriminator,  # NOQA
+}
+
+
+class JETS(AbsGANTTS):
+    """JETS module (generator + discriminator).
+
+    This is a module of JETS described in `JETS: Jointly Training FastSpeech2
+    and HiFi-GAN for End to End Text to Speech'_.
+
+    .. _`JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text to Speech`
+        : https://arxiv.org/abs/2203.16852
+
+    """
+
+    def __init__(
+        self,
+        # generator related
+        idim: int,
+        odim: int,
+        sampling_rate: int = 22050,
+        generator_type: str = "jets_generator",
+        generator_params: Dict[str, Any] = {
+            "adim": 256,
+            "aheads": 2,
+            "elayers": 4,
+            "eunits": 1024,
+            "dlayers": 4,
+            "dunits": 1024,
+            "positionwise_layer_type": "conv1d",
+            "positionwise_conv_kernel_size": 1,
+            "use_scaled_pos_enc": True,
+            "use_batch_norm": True,
+            "encoder_normalize_before": True,
+            "decoder_normalize_before": True,
+            "encoder_concat_after": False,
+            "decoder_concat_after": False,
+            "reduction_factor": 1,
+            "encoder_type": "transformer",
+            "decoder_type": "transformer",
+            "transformer_enc_dropout_rate": 0.1,
+            "transformer_enc_positional_dropout_rate": 0.1,
+            "transformer_enc_attn_dropout_rate": 0.1,
+            "transformer_dec_dropout_rate": 0.1,
+            "transformer_dec_positional_dropout_rate": 0.1,
+            "transformer_dec_attn_dropout_rate": 0.1,
+            "conformer_rel_pos_type": "latest",
+            "conformer_pos_enc_layer_type": "rel_pos",
+            "conformer_self_attn_layer_type": "rel_selfattn",
+            "conformer_activation_type": "swish",
+            "use_macaron_style_in_conformer": True,
+            "use_cnn_in_conformer": True,
+            "zero_triu": False,
+            "conformer_enc_kernel_size": 7,
+            "conformer_dec_kernel_size": 31,
+            "duration_predictor_layers": 2,
+            "duration_predictor_chans": 384,
+            "duration_predictor_kernel_size": 3,
+            "duration_predictor_dropout_rate": 0.1,
+            "energy_predictor_layers": 2,
+            "energy_predictor_chans": 384,
+            "energy_predictor_kernel_size": 3,
+            "energy_predictor_dropout": 0.5,
+            "energy_embed_kernel_size": 1,
+            "energy_embed_dropout": 0.5,
+            "stop_gradient_from_energy_predictor": False,
+            "pitch_predictor_layers": 5,
+            "pitch_predictor_chans": 384,
+            "pitch_predictor_kernel_size": 5,
+            "pitch_predictor_dropout": 0.5,
+            "pitch_embed_kernel_size": 1,
+            "pitch_embed_dropout": 0.5,
+            "stop_gradient_from_pitch_predictor": True,
+            "generator_out_channels": 1,
+            "generator_channels": 512,
+            "generator_global_channels": -1,
+            "generator_kernel_size": 7,
+            "generator_upsample_scales": [8, 8, 2, 2],
+            "generator_upsample_kernel_sizes": [16, 16, 4, 4],
+            "generator_resblock_kernel_sizes": [3, 7, 11],
+            "generator_resblock_dilations": [[1, 3, 5], [1, 3, 5], [1, 3, 5]],
+            "generator_use_additional_convs": True,
+            "generator_bias": True,
+            "generator_nonlinear_activation": "LeakyReLU",
+            "generator_nonlinear_activation_params": {"negative_slope": 0.1},
+            "generator_use_weight_norm": True,
+            "segment_size": 64,
+            "spks": -1,
+            "langs": -1,
+            "spk_embed_dim": None,
+            "spk_embed_integration_type": "add",
+            "use_gst": False,
+            "gst_tokens": 10,
+            "gst_heads": 4,
+            "gst_conv_layers": 6,
+            "gst_conv_chans_list": [32, 32, 64, 64, 128, 128],
+            "gst_conv_kernel_size": 3,
+            "gst_conv_stride": 2,
+            "gst_gru_layers": 1,
+            "gst_gru_units": 128,
+            "init_type": "xavier_uniform",
+            "init_enc_alpha": 1.0,
+            "init_dec_alpha": 1.0,
+            "use_masking": False,
+            "use_weighted_masking": False,
+        },
+        # discriminator related
+        discriminator_type: str = "hifigan_multi_scale_multi_period_discriminator",
+        discriminator_params: Dict[str, Any] = {
+            "scales": 1,
+            "scale_downsample_pooling": "AvgPool1d",
+            "scale_downsample_pooling_params": {
+                "kernel_size": 4,
+                "stride": 2,
+                "padding": 2,
+            },
+            "scale_discriminator_params": {
+                "in_channels": 1,
+                "out_channels": 1,
+                "kernel_sizes": [15, 41, 5, 3],
+                "channels": 128,
+                "max_downsample_channels": 1024,
+                "max_groups": 16,
+                "bias": True,
+                "downsample_scales": [2, 2, 4, 4, 1],
+                "nonlinear_activation": "LeakyReLU",
+                "nonlinear_activation_params": {"negative_slope": 0.1},
+                "use_weight_norm": True,
+                "use_spectral_norm": False,
+            },
+            "follow_official_norm": False,
+            "periods": [2, 3, 5, 7, 11],
+            "period_discriminator_params": {
+                "in_channels": 1,
+                "out_channels": 1,
+                "kernel_sizes": [5, 3],
+                "channels": 32,
+                "downsample_scales": [3, 3, 3, 3, 1],
+                "max_downsample_channels": 1024,
+                "bias": True,
+                "nonlinear_activation": "LeakyReLU",
+                "nonlinear_activation_params": {"negative_slope": 0.1},
+                "use_weight_norm": True,
+                "use_spectral_norm": False,
+            },
+        },
+        # loss related
+        generator_adv_loss_params: Dict[str, Any] = {
+            "average_by_discriminators": False,
+            "loss_type": "mse",
+        },
+        discriminator_adv_loss_params: Dict[str, Any] = {
+            "average_by_discriminators": False,
+            "loss_type": "mse",
+        },
+        feat_match_loss_params: Dict[str, Any] = {
+            "average_by_discriminators": False,
+            "average_by_layers": False,
+            "include_final_outputs": True,
+        },
+        mel_loss_params: Dict[str, Any] = {
+            "fs": 22050,
+            "n_fft": 1024,
+            "hop_length": 256,
+            "win_length": None,
+            "window": "hann",
+            "n_mels": 80,
+            "fmin": 0,
+            "fmax": None,
+            "log_base": None,
+        },
+        lambda_adv: float = 1.0,
+        lambda_mel: float = 45.0,
+        lambda_feat_match: float = 2.0,
+        lambda_var: float = 1.0,
+        lambda_align: float = 2.0,
+        cache_generator_outputs: bool = True,
+    ):
+        """Initialize JETS module.
+
+        Args:
+            idim (int): Input vocabrary size.
+            odim (int): Acoustic feature dimension. The actual output channels will
+                be 1 since JETS is the end-to-end text-to-wave model but for the
+                compatibility odim is used to indicate the acoustic feature dimension.
+            sampling_rate (int): Sampling rate, not used for the training but it will
+                be referred in saving waveform during the inference.
+            generator_type (str): Generator type.
+            generator_params (Dict[str, Any]): Parameter dict for generator.
+            discriminator_type (str): Discriminator type.
+            discriminator_params (Dict[str, Any]): Parameter dict for discriminator.
+            generator_adv_loss_params (Dict[str, Any]): Parameter dict for generator
+                adversarial loss.
+            discriminator_adv_loss_params (Dict[str, Any]): Parameter dict for
+                discriminator adversarial loss.
+            feat_match_loss_params (Dict[str, Any]): Parameter dict for feat match loss.
+            mel_loss_params (Dict[str, Any]): Parameter dict for mel loss.
+            lambda_adv (float): Loss scaling coefficient for adversarial loss.
+            lambda_mel (float): Loss scaling coefficient for mel spectrogram loss.
+            lambda_feat_match (float): Loss scaling coefficient for feat match loss.
+            lambda_var (float): Loss scaling coefficient for variance loss.
+            lambda_align (float): Loss scaling coefficient for alignment loss.
+            cache_generator_outputs (bool): Whether to cache generator outputs.
+
+        """
+        assert check_argument_types()
+        super().__init__()
+
+        # define modules
+        generator_class = AVAILABLE_GENERATERS[generator_type]
+        generator_params.update(idim=idim, odim=odim)
+        self.generator = generator_class(
+            **generator_params,
+        )
+        discriminator_class = AVAILABLE_DISCRIMINATORS[discriminator_type]
+        self.discriminator = discriminator_class(
+            **discriminator_params,
+        )
+        self.generator_adv_loss = GeneratorAdversarialLoss(
+            **generator_adv_loss_params,
+        )
+        self.discriminator_adv_loss = DiscriminatorAdversarialLoss(
+            **discriminator_adv_loss_params,
+        )
+        self.feat_match_loss = FeatureMatchLoss(
+            **feat_match_loss_params,
+        )
+        self.mel_loss = MelSpectrogramLoss(
+            **mel_loss_params,
+        )
+        self.var_loss = VarianceLoss()
+        self.forwardsum_loss = ForwardSumLoss()
+
+        # coefficients
+        self.lambda_adv = lambda_adv
+        self.lambda_mel = lambda_mel
+        self.lambda_feat_match = lambda_feat_match
+        self.lambda_var = lambda_var
+        self.lambda_align = lambda_align
+
+        # cache
+        self.cache_generator_outputs = cache_generator_outputs
+        self._cache = None
+
+        # store sampling rate for saving wav file
+        # (not used for the training)
+        self.fs = sampling_rate
+
+        # store parameters for test compatibility
+        self.spks = self.generator.spks
+        self.langs = self.generator.langs
+        self.spk_embed_dim = self.generator.spk_embed_dim
+
+    @property
+    def require_raw_speech(self):
+        """Return whether or not speech is required."""
+        return True
+
+    @property
+    def require_vocoder(self):
+        """Return whether or not vocoder is required."""
+        return False
+
+    def forward(
+        self,
+        text: torch.Tensor,
+        text_lengths: torch.Tensor,
+        feats: torch.Tensor,
+        feats_lengths: torch.Tensor,
+        speech: torch.Tensor,
+        speech_lengths: torch.Tensor,
+        sids: Optional[torch.Tensor] = None,
+        spembs: Optional[torch.Tensor] = None,
+        lids: Optional[torch.Tensor] = None,
+        forward_generator: bool = True,
+        **kwargs,
+    ) -> Dict[str, Any]:
+        """Perform generator forward.
+
+        Args:
+            text (Tensor): Text index tensor (B, T_text).
+            text_lengths (Tensor): Text length tensor (B,).
+            feats (Tensor): Feature tensor (B, T_feats, aux_channels).
+            feats_lengths (Tensor): Feature length tensor (B,).
+            speech (Tensor): Speech waveform tensor (B, T_wav).
+            speech_lengths (Tensor): Speech length tensor (B,).
+            sids (Optional[Tensor]): Speaker index tensor (B,) or (B, 1).
+            spembs (Optional[Tensor]): Speaker embedding tensor (B, spk_embed_dim).
+            lids (Optional[Tensor]): Language index tensor (B,) or (B, 1).
+            forward_generator (bool): Whether to forward generator.
+
+        Returns:
+            Dict[str, Any]:
+                - loss (Tensor): Loss scalar tensor.
+                - stats (Dict[str, float]): Statistics to be monitored.
+                - weight (Tensor): Weight tensor to summarize losses.
+                - optim_idx (int): Optimizer index (0 for G and 1 for D).
+
+        """
+        if forward_generator:
+            return self._forward_generator(
+                text=text,
+                text_lengths=text_lengths,
+                feats=feats,
+                feats_lengths=feats_lengths,
+                speech=speech,
+                speech_lengths=speech_lengths,
+                sids=sids,
+                spembs=spembs,
+                lids=lids,
+                **kwargs,
+            )
+        else:
+            return self._forward_discrminator(
+                text=text,
+                text_lengths=text_lengths,
+                feats=feats,
+                feats_lengths=feats_lengths,
+                speech=speech,
+                speech_lengths=speech_lengths,
+                sids=sids,
+                spembs=spembs,
+                lids=lids,
+                **kwargs,
+            )
+
+    def _forward_generator(
+        self,
+        text: torch.Tensor,
+        text_lengths: torch.Tensor,
+        feats: torch.Tensor,
+        feats_lengths: torch.Tensor,
+        speech: torch.Tensor,
+        speech_lengths: torch.Tensor,
+        sids: Optional[torch.Tensor] = None,
+        spembs: Optional[torch.Tensor] = None,
+        lids: Optional[torch.Tensor] = None,
+        **kwargs,
+    ) -> Dict[str, Any]:
+        """Perform generator forward.
+
+        Args:
+            text (Tensor): Text index tensor (B, T_text).
+            text_lengths (Tensor): Text length tensor (B,).
+            feats (Tensor): Feature tensor (B, T_feats, aux_channels).
+            feats_lengths (Tensor): Feature length tensor (B,).
+            speech (Tensor): Speech waveform tensor (B, T_wav).
+            speech_lengths (Tensor): Speech length tensor (B,).
+            sids (Optional[Tensor]): Speaker index tensor (B,) or (B, 1).
+            spembs (Optional[Tensor]): Speaker embedding tensor (B, spk_embed_dim).
+            lids (Optional[Tensor]): Language index tensor (B,) or (B, 1).
+
+        Returns:
+            Dict[str, Any]:
+                * loss (Tensor): Loss scalar tensor.
+                * stats (Dict[str, float]): Statistics to be monitored.
+                * weight (Tensor): Weight tensor to summarize losses.
+                * optim_idx (int): Optimizer index (0 for G and 1 for D).
+
+        """
+        # setup
+        batch_size = text.size(0)
+        speech = speech.unsqueeze(1)
+
+        # calculate generator outputs
+        reuse_cache = True
+        if not self.cache_generator_outputs or self._cache is None:
+            reuse_cache = False
+            outs = self.generator(
+                text=text,
+                text_lengths=text_lengths,
+                feats=feats,
+                feats_lengths=feats_lengths,
+                sids=sids,
+                spembs=spembs,
+                lids=lids,
+                **kwargs,
+            )
+        else:
+            outs = self._cache
+
+        # store cache
+        if self.training and self.cache_generator_outputs and not reuse_cache:
+            self._cache = outs
+
+        # parse outputs
+        (
+            speech_hat_,
+            bin_loss,
+            log_p_attn,
+            start_idxs,
+            d_outs,
+            ds,
+            p_outs,
+            ps,
+            e_outs,
+            es,
+        ) = outs
+        speech_ = get_segments(
+            x=speech,
+            start_idxs=start_idxs * self.generator.upsample_factor,
+            segment_size=self.generator.segment_size * self.generator.upsample_factor,
+        )
+
+        # calculate discriminator outputs
+        p_hat = self.discriminator(speech_hat_)
+        with torch.no_grad():
+            # do not store discriminator gradient in generator turn
+            p = self.discriminator(speech_)
+
+        # calculate losses
+        mel_loss = self.mel_loss(speech_hat_, speech_)
+        adv_loss = self.generator_adv_loss(p_hat)
+        feat_match_loss = self.feat_match_loss(p_hat, p)
+        dur_loss, pitch_loss, energy_loss = self.var_loss(
+            d_outs, ds, p_outs, ps, e_outs, es, text_lengths
+        )
+        forwardsum_loss = self.forwardsum_loss(log_p_attn, text_lengths, feats_lengths)
+
+        mel_loss = mel_loss * self.lambda_mel
+        adv_loss = adv_loss * self.lambda_adv
+        feat_match_loss = feat_match_loss * self.lambda_feat_match
+        g_loss = mel_loss + adv_loss + feat_match_loss
+        var_loss = (dur_loss + pitch_loss + energy_loss) * self.lambda_var
+        align_loss = (forwardsum_loss + bin_loss) * self.lambda_align
+
+        loss = g_loss + var_loss + align_loss
+
+        stats = dict(
+            generator_loss=loss.item(),
+            generator_g_loss=g_loss.item(),
+            generator_var_loss=var_loss.item(),
+            generator_align_loss=align_loss.item(),
+            generator_g_mel_loss=mel_loss.item(),
+            generator_g_adv_loss=adv_loss.item(),
+            generator_g_feat_match_loss=feat_match_loss.item(),
+            generator_var_dur_loss=dur_loss.item(),
+            generator_var_pitch_loss=pitch_loss.item(),
+            generator_var_energy_loss=energy_loss.item(),
+            generator_align_forwardsum_loss=forwardsum_loss.item(),
+            generator_align_bin_loss=bin_loss.item(),
+        )
+
+        loss, stats, weight = force_gatherable((loss, stats, batch_size), loss.device)
+
+        # reset cache
+        if reuse_cache or not self.training:
+            self._cache = None
+
+        return {
+            "loss": loss,
+            "stats": stats,
+            "weight": weight,
+            "optim_idx": 0,  # needed for trainer
+        }
+
+    def _forward_discrminator(
+        self,
+        text: torch.Tensor,
+        text_lengths: torch.Tensor,
+        feats: torch.Tensor,
+        feats_lengths: torch.Tensor,
+        speech: torch.Tensor,
+        speech_lengths: torch.Tensor,
+        sids: Optional[torch.Tensor] = None,
+        spembs: Optional[torch.Tensor] = None,
+        lids: Optional[torch.Tensor] = None,
+        **kwargs,
+    ) -> Dict[str, Any]:
+        """Perform discriminator forward.
+
+        Args:
+            text (Tensor): Text index tensor (B, T_text).
+            text_lengths (Tensor): Text length tensor (B,).
+            feats (Tensor): Feature tensor (B, T_feats, aux_channels).
+            feats_lengths (Tensor): Feature length tensor (B,).
+            speech (Tensor): Speech waveform tensor (B, T_wav).
+            speech_lengths (Tensor): Speech length tensor (B,).
+            sids (Optional[Tensor]): Speaker index tensor (B,) or (B, 1).
+            spembs (Optional[Tensor]): Speaker embedding tensor (B, spk_embed_dim).
+            lids (Optional[Tensor]): Language index tensor (B,) or (B, 1).
+
+        Returns:
+            Dict[str, Any]:
+                * loss (Tensor): Loss scalar tensor.
+                * stats (Dict[str, float]): Statistics to be monitored.
+                * weight (Tensor): Weight tensor to summarize losses.
+                * optim_idx (int): Optimizer index (0 for G and 1 for D).
+
+        """
+        # setup
+        batch_size = text.size(0)
+        speech = speech.unsqueeze(1)
+
+        # calculate generator outputs
+        reuse_cache = True
+        if not self.cache_generator_outputs or self._cache is None:
+            reuse_cache = False
+            outs = self.generator(
+                text=text,
+                text_lengths=text_lengths,
+                feats=feats,
+                feats_lengths=feats_lengths,
+                sids=sids,
+                spembs=spembs,
+                lids=lids,
+                **kwargs,
+            )
+        else:
+            outs = self._cache
+
+        # store cache
+        if self.cache_generator_outputs and not reuse_cache:
+            self._cache = outs
+
+        # parse outputs
+        speech_hat_, _, _, start_idxs, *_ = outs
+        speech_ = get_segments(
+            x=speech,
+            start_idxs=start_idxs * self.generator.upsample_factor,
+            segment_size=self.generator.segment_size * self.generator.upsample_factor,
+        )
+
+        # calculate discriminator outputs
+        p_hat = self.discriminator(speech_hat_.detach())
+        p = self.discriminator(speech_)
+
+        # calculate losses
+        real_loss, fake_loss = self.discriminator_adv_loss(p_hat, p)
+        loss = real_loss + fake_loss
+
+        stats = dict(
+            discriminator_loss=loss.item(),
+            discriminator_real_loss=real_loss.item(),
+            discriminator_fake_loss=fake_loss.item(),
+        )
+        loss, stats, weight = force_gatherable((loss, stats, batch_size), loss.device)
+
+        # reset cache
+        if reuse_cache or not self.training:
+            self._cache = None
+
+        return {
+            "loss": loss,
+            "stats": stats,
+            "weight": weight,
+            "optim_idx": 1,  # needed for trainer
+        }
+
+    def inference(
+        self,
+        text: torch.Tensor,
+        feats: Optional[torch.Tensor] = None,
+        pitch: Optional[torch.Tensor] = None,
+        energy: Optional[torch.Tensor] = None,
+        use_teacher_forcing: bool = False,
+        **kwargs,
+    ) -> Dict[str, torch.Tensor]:
+        """Run inference.
+
+        Args:
+            text (Tensor): Input text index tensor (T_text,).
+            feats (Tensor): Feature tensor (T_feats, aux_channels).
+            pitch (Tensor): Pitch tensor (T_feats, 1).
+            energy (Tensor): Energy tensor (T_feats, 1).
+            use_teacher_forcing (bool): Whether to use teacher forcing.
+
+        Returns:
+            Dict[str, Tensor]:
+                * wav (Tensor): Generated waveform tensor (T_wav,).
+                * duration (Tensor): Predicted duration tensor (T_text,).
+
+        """
+        # setup
+        text = text[None]
+        text_lengths = torch.tensor(
+            [text.size(1)],
+            dtype=torch.long,
+            device=text.device,
+        )
+        if "spembs" in kwargs:
+            kwargs["spembs"] = kwargs["spembs"][None]
+
+        # inference
+        if use_teacher_forcing:
+            assert feats is not None
+            feats = feats[None]
+            feats_lengths = torch.tensor(
+                [feats.size(1)],
+                dtype=torch.long,
+                device=feats.device,
+            )
+            assert pitch is not None
+            pitch = pitch[None]
+            assert energy is not None
+            energy = energy[None]
+
+            wav, dur = self.generator.inference(
+                text=text,
+                text_lengths=text_lengths,
+                feats=feats,
+                feats_lengths=feats_lengths,
+                pitch=pitch,
+                energy=energy,
+                use_teacher_forcing=use_teacher_forcing,
+                **kwargs,
+            )
+        else:
+            wav, dur = self.generator.inference(
+                text=text,
+                text_lengths=text_lengths,
+                **kwargs,
+            )
+        return dict(wav=wav.view(-1), duration=dur[0])
diff --git a/espnet2/gan_tts/jets/length_regulator.py b/espnet2/gan_tts/jets/length_regulator.py
new file mode 100644
index 00000000000..4cbb8b12c1a
--- /dev/null
+++ b/espnet2/gan_tts/jets/length_regulator.py
@@ -0,0 +1,63 @@
+# Copyright 2022 Dan Lim
+#  Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
+
+import logging
+
+import torch
+
+
+class GaussianUpsampling(torch.nn.Module):
+    """Gaussian upsampling with fixed temperature as in:
+
+    https://arxiv.org/abs/2010.04301
+
+    """
+
+    def __init__(self, delta=0.1):
+        super().__init__()
+        self.delta = delta
+
+    def forward(self, hs, ds, h_masks=None, d_masks=None):
+        """Upsample hidden states according to durations.
+
+        Args:
+            hs (Tensor): Batched hidden state to be expanded (B, T_text, adim).
+            ds (Tensor): Batched token duration (B, T_text).
+            h_masks (Tensor): Mask tensor (B, T_feats).
+            d_masks (Tensor): Mask tensor (B, T_text).
+
+        Returns:
+            Tensor: Expanded hidden state (B, T_feat, adim).
+
+        """
+        B = ds.size(0)
+        device = ds.device
+
+        if ds.sum() == 0:
+            logging.warning(
+                "predicted durations includes all 0 sequences. "
+                "fill the first element with 1."
+            )
+            # NOTE(kan-bayashi): This case must not be happened in teacher forcing.
+            #   It will be happened in inference with a bad duration predictor.
+            #   So we do not need to care the padded sequence case here.
+            ds[ds.sum(dim=1).eq(0)] = 1
+
+        if h_masks is None:
+            T_feats = ds.sum().int()
+        else:
+            T_feats = h_masks.size(-1)
+        t = torch.arange(0, T_feats).unsqueeze(0).repeat(B, 1).to(device).float()
+        if h_masks is not None:
+            t = t * h_masks.float()
+
+        c = ds.cumsum(dim=-1) - ds / 2
+        energy = -1 * self.delta * (t.unsqueeze(-1) - c.unsqueeze(1)) ** 2
+        if d_masks is not None:
+            energy = energy.masked_fill(
+                ~(d_masks.unsqueeze(1).repeat(1, T_feats, 1)), -float("inf")
+            )
+
+        p_attn = torch.softmax(energy, dim=2)  # (B, T_feats, T_text)
+        hs = torch.matmul(p_attn, hs)
+        return hs
diff --git a/espnet2/gan_tts/jets/loss.py b/espnet2/gan_tts/jets/loss.py
new file mode 100644
index 00000000000..8af53aa1183
--- /dev/null
+++ b/espnet2/gan_tts/jets/loss.py
@@ -0,0 +1,212 @@
+# Copyright 2022 Dan Lim
+#  Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
+
+"""JETS related loss module for ESPnet2."""
+
+from typing import Tuple
+
+import numpy as np
+import torch
+import torch.nn.functional as F
+from scipy.stats import betabinom
+from typeguard import check_argument_types
+
+from espnet.nets.pytorch_backend.fastspeech.duration_predictor import (  # noqa: H301
+    DurationPredictorLoss,
+)
+from espnet.nets.pytorch_backend.nets_utils import make_non_pad_mask
+
+
+class VarianceLoss(torch.nn.Module):
+    def __init__(self, use_masking: bool = True, use_weighted_masking: bool = False):
+        """Initialize JETS variance loss module.
+
+        Args:
+            use_masking (bool): Whether to apply masking for padded part in loss
+                calculation.
+            use_weighted_masking (bool): Whether to weighted masking in loss
+                calculation.
+
+        """
+        assert check_argument_types()
+        super().__init__()
+
+        assert (use_masking != use_weighted_masking) or not use_masking
+        self.use_masking = use_masking
+        self.use_weighted_masking = use_weighted_masking
+
+        # define criterions
+        reduction = "none" if self.use_weighted_masking else "mean"
+        self.mse_criterion = torch.nn.MSELoss(reduction=reduction)
+        self.duration_criterion = DurationPredictorLoss(reduction=reduction)
+
+    def forward(
+        self,
+        d_outs: torch.Tensor,
+        ds: torch.Tensor,
+        p_outs: torch.Tensor,
+        ps: torch.Tensor,
+        e_outs: torch.Tensor,
+        es: torch.Tensor,
+        ilens: torch.Tensor,
+    ) -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
+        """Calculate forward propagation.
+
+        Args:
+            d_outs (LongTensor): Batch of outputs of duration predictor (B, T_text).
+            ds (LongTensor): Batch of durations (B, T_text).
+            p_outs (Tensor): Batch of outputs of pitch predictor (B, T_text, 1).
+            ps (Tensor): Batch of target token-averaged pitch (B, T_text, 1).
+            e_outs (Tensor): Batch of outputs of energy predictor (B, T_text, 1).
+            es (Tensor): Batch of target token-averaged energy (B, T_text, 1).
+            ilens (LongTensor): Batch of the lengths of each input (B,).
+
+        Returns:
+            Tensor: Duration predictor loss value.
+            Tensor: Pitch predictor loss value.
+            Tensor: Energy predictor loss value.
+
+        """
+        # apply mask to remove padded part
+        if self.use_masking:
+            duration_masks = make_non_pad_mask(ilens).to(ds.device)
+            d_outs = d_outs.masked_select(duration_masks)
+            ds = ds.masked_select(duration_masks)
+            pitch_masks = make_non_pad_mask(ilens).unsqueeze(-1).to(ds.device)
+            p_outs = p_outs.masked_select(pitch_masks)
+            e_outs = e_outs.masked_select(pitch_masks)
+            ps = ps.masked_select(pitch_masks)
+            es = es.masked_select(pitch_masks)
+
+        # calculate loss
+        duration_loss = self.duration_criterion(d_outs, ds)
+        pitch_loss = self.mse_criterion(p_outs, ps)
+        energy_loss = self.mse_criterion(e_outs, es)
+
+        # make weighted mask and apply it
+        if self.use_weighted_masking:
+            duration_masks = make_non_pad_mask(ilens).to(ds.device)
+            duration_weights = (
+                duration_masks.float() / duration_masks.sum(dim=1, keepdim=True).float()
+            )
+            duration_weights /= ds.size(0)
+
+            # apply weight
+            duration_loss = (
+                duration_loss.mul(duration_weights).masked_select(duration_masks).sum()
+            )
+            pitch_masks = duration_masks.unsqueeze(-1)
+            pitch_weights = duration_weights.unsqueeze(-1)
+            pitch_loss = pitch_loss.mul(pitch_weights).masked_select(pitch_masks).sum()
+            energy_loss = (
+                energy_loss.mul(pitch_weights).masked_select(pitch_masks).sum()
+            )
+
+        return duration_loss, pitch_loss, energy_loss
+
+
+class ForwardSumLoss(torch.nn.Module):
+    """Forwardsum loss described at https://openreview.net/forum?id=0NQwnnwAORi"""
+
+    def __init__(self, cache_prior: bool = True):
+        """Initialize forwardsum loss module.
+
+        Args:
+            cache_prior (bool): Whether to cache beta-binomial prior
+
+        """
+        super().__init__()
+        self.cache_prior = cache_prior
+        self._cache = {}
+
+    def forward(
+        self,
+        log_p_attn: torch.Tensor,
+        ilens: torch.Tensor,
+        olens: torch.Tensor,
+        blank_prob: float = np.e**-1,
+    ) -> torch.Tensor:
+        """Calculate forward propagation.
+
+        Args:
+            log_p_attn (Tensor): Batch of log probability of attention matrix
+                (B, T_feats, T_text).
+            ilens (Tensor): Batch of the lengths of each input (B,).
+            olens (Tensor): Batch of the lengths of each target (B,).
+            blank_prob (float): Blank symbol probability.
+
+        Returns:
+            Tensor: forwardsum loss value.
+
+        """
+        B = log_p_attn.size(0)
+
+        # add beta-binomial prior
+        bb_prior = self._generate_prior(ilens, olens)
+        bb_prior = bb_prior.to(dtype=log_p_attn.dtype, device=log_p_attn.device)
+        log_p_attn = log_p_attn + bb_prior
+
+        # a row must be added to the attention matrix to account for
+        #    blank token of CTC loss
+        # (B,T_feats,T_text+1)
+        log_p_attn_pd = F.pad(log_p_attn, (1, 0, 0, 0, 0, 0), value=np.log(blank_prob))
+
+        loss = 0
+        for bidx in range(B):
+            # construct target sequnece.
+            # Every text token is mapped to a unique sequnece number.
+            target_seq = torch.arange(1, ilens[bidx] + 1).unsqueeze(0)
+            cur_log_p_attn_pd = log_p_attn_pd[
+                bidx, : olens[bidx], : ilens[bidx] + 1
+            ].unsqueeze(
+                1
+            )  # (T_feats,1,T_text+1)
+            loss += F.ctc_loss(
+                log_probs=cur_log_p_attn_pd,
+                targets=target_seq,
+                input_lengths=olens[bidx : bidx + 1],
+                target_lengths=ilens[bidx : bidx + 1],
+                zero_infinity=True,
+            )
+        loss = loss / B
+        return loss
+
+    def _generate_prior(self, text_lengths, feats_lengths, w=1) -> torch.Tensor:
+        """Generate alignment prior formulated as beta-binomial distribution
+
+        Args:
+            text_lengths (Tensor): Batch of the lengths of each input (B,).
+            feats_lengths (Tensor): Batch of the lengths of each target (B,).
+            w (float): Scaling factor; lower -> wider the width.
+
+        Returns:
+            Tensor: Batched 2d static prior matrix (B, T_feats, T_text).
+
+        """
+        B = len(text_lengths)
+        T_text = text_lengths.max()
+        T_feats = feats_lengths.max()
+
+        bb_prior = torch.full((B, T_feats, T_text), fill_value=-np.inf)
+        for bidx in range(B):
+            T = feats_lengths[bidx].item()
+            N = text_lengths[bidx].item()
+
+            key = str(T) + "," + str(N)
+            if self.cache_prior and key in self._cache:
+                prob = self._cache[key]
+            else:
+                alpha = w * np.arange(1, T + 1, dtype=float)  # (T,)
+                beta = w * np.array([T - t + 1 for t in alpha])
+                k = np.arange(N)
+                batched_k = k[..., None]  # (N,1)
+                prob = betabinom.logpmf(batched_k, N, alpha, beta)  # (N,T)
+
+            # store cache
+            if self.cache_prior and key not in self._cache:
+                self._cache[key] = prob
+
+            prob = torch.from_numpy(prob).transpose(0, 1)  # -> (T,N)
+            bb_prior[bidx, :T, :N] = prob
+
+        return bb_prior
diff --git a/espnet2/gan_tts/joint/joint_text2wav.py b/espnet2/gan_tts/joint/joint_text2wav.py
index 5d85e337642..b1bc0c07ca3 100644
--- a/espnet2/gan_tts/joint/joint_text2wav.py
+++ b/espnet2/gan_tts/joint/joint_text2wav.py
@@ -3,33 +3,34 @@
 
 """Joint text-to-wav module for end-to-end training."""
 
-from typing import Any
-from typing import Dict
+from typing import Any, Dict
 
 import torch
-
 from typeguard import check_argument_types
 
 from espnet2.gan_tts.abs_gan_tts import AbsGANTTS
-from espnet2.gan_tts.hifigan import HiFiGANGenerator
-from espnet2.gan_tts.hifigan import HiFiGANMultiPeriodDiscriminator
-from espnet2.gan_tts.hifigan import HiFiGANMultiScaleDiscriminator
-from espnet2.gan_tts.hifigan import HiFiGANMultiScaleMultiPeriodDiscriminator
-from espnet2.gan_tts.hifigan import HiFiGANPeriodDiscriminator
-from espnet2.gan_tts.hifigan import HiFiGANScaleDiscriminator
-from espnet2.gan_tts.hifigan.loss import DiscriminatorAdversarialLoss
-from espnet2.gan_tts.hifigan.loss import FeatureMatchLoss
-from espnet2.gan_tts.hifigan.loss import GeneratorAdversarialLoss
-from espnet2.gan_tts.hifigan.loss import MelSpectrogramLoss
-from espnet2.gan_tts.melgan import MelGANGenerator
-from espnet2.gan_tts.melgan import MelGANMultiScaleDiscriminator
+from espnet2.gan_tts.hifigan import (
+    HiFiGANGenerator,
+    HiFiGANMultiPeriodDiscriminator,
+    HiFiGANMultiScaleDiscriminator,
+    HiFiGANMultiScaleMultiPeriodDiscriminator,
+    HiFiGANPeriodDiscriminator,
+    HiFiGANScaleDiscriminator,
+)
+from espnet2.gan_tts.hifigan.loss import (
+    DiscriminatorAdversarialLoss,
+    FeatureMatchLoss,
+    GeneratorAdversarialLoss,
+    MelSpectrogramLoss,
+)
+from espnet2.gan_tts.melgan import MelGANGenerator, MelGANMultiScaleDiscriminator
 from espnet2.gan_tts.melgan.pqmf import PQMF
-from espnet2.gan_tts.parallel_wavegan import ParallelWaveGANDiscriminator
-from espnet2.gan_tts.parallel_wavegan import ParallelWaveGANGenerator
-from espnet2.gan_tts.style_melgan import StyleMelGANDiscriminator
-from espnet2.gan_tts.style_melgan import StyleMelGANGenerator
-from espnet2.gan_tts.utils import get_random_segments
-from espnet2.gan_tts.utils import get_segments
+from espnet2.gan_tts.parallel_wavegan import (
+    ParallelWaveGANDiscriminator,
+    ParallelWaveGANGenerator,
+)
+from espnet2.gan_tts.style_melgan import StyleMelGANDiscriminator, StyleMelGANGenerator
+from espnet2.gan_tts.utils import get_random_segments, get_segments
 from espnet2.torch_utils.device_funcs import force_gatherable
 from espnet2.tts.fastspeech import FastSpeech
 from espnet2.tts.fastspeech2 import FastSpeech2
diff --git a/espnet2/gan_tts/melgan/melgan.py b/espnet2/gan_tts/melgan/melgan.py
index 7b1281d14fd..0c930e1bb71 100644
--- a/espnet2/gan_tts/melgan/melgan.py
+++ b/espnet2/gan_tts/melgan/melgan.py
@@ -8,10 +8,7 @@
 """
 
 import logging
-
-from typing import Any
-from typing import Dict
-from typing import List
+from typing import Any, Dict, List
 
 import numpy as np
 import torch
diff --git a/espnet2/gan_tts/melgan/pqmf.py b/espnet2/gan_tts/melgan/pqmf.py
index ef4e053d862..7e504b7dc71 100644
--- a/espnet2/gan_tts/melgan/pqmf.py
+++ b/espnet2/gan_tts/melgan/pqmf.py
@@ -10,7 +10,6 @@
 import numpy as np
 import torch
 import torch.nn.functional as F
-
 from scipy.signal import kaiser
 
 
diff --git a/espnet2/gan_tts/melgan/residual_stack.py b/espnet2/gan_tts/melgan/residual_stack.py
index 3fb7e927e87..daeb009c51e 100644
--- a/espnet2/gan_tts/melgan/residual_stack.py
+++ b/espnet2/gan_tts/melgan/residual_stack.py
@@ -7,8 +7,7 @@
 
 """
 
-from typing import Any
-from typing import Dict
+from typing import Any, Dict
 
 import torch
 
diff --git a/espnet2/gan_tts/parallel_wavegan/__init__.py b/espnet2/gan_tts/parallel_wavegan/__init__.py
index 357235c4847..7834ee3418d 100644
--- a/espnet2/gan_tts/parallel_wavegan/__init__.py
+++ b/espnet2/gan_tts/parallel_wavegan/__init__.py
@@ -1,4 +1,6 @@
-from espnet2.gan_tts.parallel_wavegan.parallel_wavegan import (  # NOQA
-    ParallelWaveGANDiscriminator,  # NOQA
-    ParallelWaveGANGenerator,  # NOQA
+from espnet2.gan_tts.parallel_wavegan.parallel_wavegan import (
+    ParallelWaveGANDiscriminator,
+    ParallelWaveGANGenerator,
 )
+
+__all__ = ["ParallelWaveGANDiscriminator", "ParallelWaveGANGenerator"]
diff --git a/espnet2/gan_tts/parallel_wavegan/parallel_wavegan.py b/espnet2/gan_tts/parallel_wavegan/parallel_wavegan.py
index 85b9ac224ae..7f3c5e850c1 100644
--- a/espnet2/gan_tts/parallel_wavegan/parallel_wavegan.py
+++ b/espnet2/gan_tts/parallel_wavegan/parallel_wavegan.py
@@ -9,18 +9,13 @@
 
 import logging
 import math
-
-from typing import Any
-from typing import Dict
-from typing import Optional
+from typing import Any, Dict, Optional
 
 import numpy as np
 import torch
 
 from espnet2.gan_tts.parallel_wavegan import upsample
-from espnet2.gan_tts.wavenet.residual_block import Conv1d
-from espnet2.gan_tts.wavenet.residual_block import Conv1d1x1
-from espnet2.gan_tts.wavenet.residual_block import ResidualBlock
+from espnet2.gan_tts.wavenet.residual_block import Conv1d, Conv1d1x1, ResidualBlock
 
 
 class ParallelWaveGANGenerator(torch.nn.Module):
diff --git a/espnet2/gan_tts/parallel_wavegan/upsample.py b/espnet2/gan_tts/parallel_wavegan/upsample.py
index 4e0acee577c..de8163a4375 100644
--- a/espnet2/gan_tts/parallel_wavegan/upsample.py
+++ b/espnet2/gan_tts/parallel_wavegan/upsample.py
@@ -7,10 +7,7 @@
 
 """
 
-from typing import Any
-from typing import Dict
-from typing import List
-from typing import Optional
+from typing import Any, Dict, List, Optional
 
 import numpy as np
 import torch
diff --git a/espnet2/gan_tts/style_melgan/style_melgan.py b/espnet2/gan_tts/style_melgan/style_melgan.py
index 4934a094f23..72cf9eae035 100644
--- a/espnet2/gan_tts/style_melgan/style_melgan.py
+++ b/espnet2/gan_tts/style_melgan/style_melgan.py
@@ -10,11 +10,7 @@
 import copy
 import logging
 import math
-
-from typing import Any
-from typing import Dict
-from typing import List
-from typing import Optional
+from typing import Any, Dict, List, Optional
 
 import numpy as np
 import torch
diff --git a/espnet2/gan_tts/vits/duration_predictor.py b/espnet2/gan_tts/vits/duration_predictor.py
index 5a480b11344..f561503d912 100644
--- a/espnet2/gan_tts/vits/duration_predictor.py
+++ b/espnet2/gan_tts/vits/duration_predictor.py
@@ -8,17 +8,18 @@
 """
 
 import math
-
 from typing import Optional
 
 import torch
 import torch.nn.functional as F
 
-from espnet2.gan_tts.vits.flow import ConvFlow
-from espnet2.gan_tts.vits.flow import DilatedDepthSeparableConv
-from espnet2.gan_tts.vits.flow import ElementwiseAffineFlow
-from espnet2.gan_tts.vits.flow import FlipFlow
-from espnet2.gan_tts.vits.flow import LogFlow
+from espnet2.gan_tts.vits.flow import (
+    ConvFlow,
+    DilatedDepthSeparableConv,
+    ElementwiseAffineFlow,
+    FlipFlow,
+    LogFlow,
+)
 
 
 class StochasticDurationPredictor(torch.nn.Module):
diff --git a/espnet2/gan_tts/vits/flow.py b/espnet2/gan_tts/vits/flow.py
index ef384df3802..c59778e08c5 100644
--- a/espnet2/gan_tts/vits/flow.py
+++ b/espnet2/gan_tts/vits/flow.py
@@ -8,10 +8,7 @@
 """
 
 import math
-
-from typing import Optional
-from typing import Tuple
-from typing import Union
+from typing import Optional, Tuple, Union
 
 import torch
 
diff --git a/espnet2/gan_tts/vits/generator.py b/espnet2/gan_tts/vits/generator.py
index 4907dbd6162..1142ce1f5c4 100644
--- a/espnet2/gan_tts/vits/generator.py
+++ b/espnet2/gan_tts/vits/generator.py
@@ -8,22 +8,19 @@
 """
 
 import math
-
-from typing import List
-from typing import Optional
-from typing import Tuple
+from typing import List, Optional, Tuple
 
 import numpy as np
 import torch
 import torch.nn.functional as F
 
-from espnet.nets.pytorch_backend.nets_utils import make_non_pad_mask
 from espnet2.gan_tts.hifigan import HiFiGANGenerator
 from espnet2.gan_tts.utils import get_random_segments
 from espnet2.gan_tts.vits.duration_predictor import StochasticDurationPredictor
 from espnet2.gan_tts.vits.posterior_encoder import PosteriorEncoder
 from espnet2.gan_tts.vits.residual_coupling import ResidualAffineCouplingBlock
 from espnet2.gan_tts.vits.text_encoder import TextEncoder
+from espnet.nets.pytorch_backend.nets_utils import make_non_pad_mask
 
 
 class VITSGenerator(torch.nn.Module):
diff --git a/espnet2/gan_tts/vits/monotonic_align/__init__.py b/espnet2/gan_tts/vits/monotonic_align/__init__.py
index 59bbf12dba4..e7390c6ea99 100644
--- a/espnet2/gan_tts/vits/monotonic_align/__init__.py
+++ b/espnet2/gan_tts/vits/monotonic_align/__init__.py
@@ -8,9 +8,7 @@
 
 import numpy as np
 import torch
-
-from numba import njit
-from numba import prange
+from numba import njit, prange
 
 try:
     from .core import maximum_path_c
diff --git a/espnet2/gan_tts/vits/monotonic_align/setup.py b/espnet2/gan_tts/vits/monotonic_align/setup.py
index 6df5c46d7f2..d044b2794ea 100644
--- a/espnet2/gan_tts/vits/monotonic_align/setup.py
+++ b/espnet2/gan_tts/vits/monotonic_align/setup.py
@@ -1,11 +1,8 @@
 """Setup cython code."""
 
-from setuptools import Extension
-from setuptools import setup
-
-from setuptools.command.build_ext import build_ext as _build_ext
-
 from Cython.Build import cythonize
+from setuptools import Extension, setup
+from setuptools.command.build_ext import build_ext as _build_ext
 
 
 class build_ext(_build_ext):
diff --git a/espnet2/gan_tts/vits/posterior_encoder.py b/espnet2/gan_tts/vits/posterior_encoder.py
index 1ae3a8ca332..199b6586000 100644
--- a/espnet2/gan_tts/vits/posterior_encoder.py
+++ b/espnet2/gan_tts/vits/posterior_encoder.py
@@ -7,14 +7,13 @@
 
 """
 
-from typing import Optional
-from typing import Tuple
+from typing import Optional, Tuple
 
 import torch
 
-from espnet.nets.pytorch_backend.nets_utils import make_non_pad_mask
-from espnet2.gan_tts.wavenet.residual_block import Conv1d
 from espnet2.gan_tts.wavenet import WaveNet
+from espnet2.gan_tts.wavenet.residual_block import Conv1d
+from espnet.nets.pytorch_backend.nets_utils import make_non_pad_mask
 
 
 class PosteriorEncoder(torch.nn.Module):
diff --git a/espnet2/gan_tts/vits/residual_coupling.py b/espnet2/gan_tts/vits/residual_coupling.py
index e01bd2c85ac..0a222c8763b 100644
--- a/espnet2/gan_tts/vits/residual_coupling.py
+++ b/espnet2/gan_tts/vits/residual_coupling.py
@@ -7,9 +7,7 @@
 
 """
 
-from typing import Optional
-from typing import Tuple
-from typing import Union
+from typing import Optional, Tuple, Union
 
 import torch
 
diff --git a/espnet2/gan_tts/vits/text_encoder.py b/espnet2/gan_tts/vits/text_encoder.py
index 6e529081d57..b268b2f5397 100644
--- a/espnet2/gan_tts/vits/text_encoder.py
+++ b/espnet2/gan_tts/vits/text_encoder.py
@@ -8,7 +8,6 @@
 """
 
 import math
-
 from typing import Tuple
 
 import torch
diff --git a/espnet2/gan_tts/vits/transform.py b/espnet2/gan_tts/vits/transform.py
index aa7729839cf..9addfa73ae9 100644
--- a/espnet2/gan_tts/vits/transform.py
+++ b/espnet2/gan_tts/vits/transform.py
@@ -4,12 +4,10 @@
 
 """
 
+import numpy as np
 import torch
 from torch.nn import functional as F
 
-import numpy as np
-
-
 DEFAULT_MIN_BIN_WIDTH = 1e-3
 DEFAULT_MIN_BIN_HEIGHT = 1e-3
 DEFAULT_MIN_DERIVATIVE = 1e-3
diff --git a/espnet2/gan_tts/vits/vits.py b/espnet2/gan_tts/vits/vits.py
index 3f906b96374..863d6b807bd 100644
--- a/espnet2/gan_tts/vits/vits.py
+++ b/espnet2/gan_tts/vits/vits.py
@@ -3,24 +3,27 @@
 
 """VITS module for GAN-TTS task."""
 
-from typing import Any
-from typing import Dict
-from typing import Optional
+from contextlib import contextmanager
+from distutils.version import LooseVersion
+from typing import Any, Dict, Optional
 
 import torch
-
 from typeguard import check_argument_types
 
 from espnet2.gan_tts.abs_gan_tts import AbsGANTTS
-from espnet2.gan_tts.hifigan import HiFiGANMultiPeriodDiscriminator
-from espnet2.gan_tts.hifigan import HiFiGANMultiScaleDiscriminator
-from espnet2.gan_tts.hifigan import HiFiGANMultiScaleMultiPeriodDiscriminator
-from espnet2.gan_tts.hifigan import HiFiGANPeriodDiscriminator
-from espnet2.gan_tts.hifigan import HiFiGANScaleDiscriminator
-from espnet2.gan_tts.hifigan.loss import DiscriminatorAdversarialLoss
-from espnet2.gan_tts.hifigan.loss import FeatureMatchLoss
-from espnet2.gan_tts.hifigan.loss import GeneratorAdversarialLoss
-from espnet2.gan_tts.hifigan.loss import MelSpectrogramLoss
+from espnet2.gan_tts.hifigan import (
+    HiFiGANMultiPeriodDiscriminator,
+    HiFiGANMultiScaleDiscriminator,
+    HiFiGANMultiScaleMultiPeriodDiscriminator,
+    HiFiGANPeriodDiscriminator,
+    HiFiGANScaleDiscriminator,
+)
+from espnet2.gan_tts.hifigan.loss import (
+    DiscriminatorAdversarialLoss,
+    FeatureMatchLoss,
+    GeneratorAdversarialLoss,
+    MelSpectrogramLoss,
+)
 from espnet2.gan_tts.utils import get_segments
 from espnet2.gan_tts.vits.generator import VITSGenerator
 from espnet2.gan_tts.vits.loss import KLDivergenceLoss
@@ -37,6 +40,14 @@
     "hifigan_multi_scale_multi_period_discriminator": HiFiGANMultiScaleMultiPeriodDiscriminator,  # NOQA
 }
 
+if LooseVersion(torch.__version__) >= LooseVersion("1.6.0"):
+    from torch.cuda.amp import autocast
+else:
+    # Nothing to do if torch<1.6.0
+    @contextmanager
+    def autocast(enabled=True):  # NOQA
+        yield
+
 
 class VITS(AbsGANTTS):
     """VITS module (generator + discriminator).
@@ -398,18 +409,19 @@ def _forward_generator(
             p = self.discriminator(speech_)
 
         # calculate losses
-        mel_loss = self.mel_loss(speech_hat_, speech_)
-        kl_loss = self.kl_loss(z_p, logs_q, m_p, logs_p, z_mask)
-        dur_loss = torch.sum(dur_nll.float())
-        adv_loss = self.generator_adv_loss(p_hat)
-        feat_match_loss = self.feat_match_loss(p_hat, p)
-
-        mel_loss = mel_loss * self.lambda_mel
-        kl_loss = kl_loss * self.lambda_kl
-        dur_loss = dur_loss * self.lambda_dur
-        adv_loss = adv_loss * self.lambda_adv
-        feat_match_loss = feat_match_loss * self.lambda_feat_match
-        loss = mel_loss + kl_loss + dur_loss + adv_loss + feat_match_loss
+        with autocast(enabled=False):
+            mel_loss = self.mel_loss(speech_hat_, speech_)
+            kl_loss = self.kl_loss(z_p, logs_q, m_p, logs_p, z_mask)
+            dur_loss = torch.sum(dur_nll.float())
+            adv_loss = self.generator_adv_loss(p_hat)
+            feat_match_loss = self.feat_match_loss(p_hat, p)
+
+            mel_loss = mel_loss * self.lambda_mel
+            kl_loss = kl_loss * self.lambda_kl
+            dur_loss = dur_loss * self.lambda_dur
+            adv_loss = adv_loss * self.lambda_adv
+            feat_match_loss = feat_match_loss * self.lambda_feat_match
+            loss = mel_loss + kl_loss + dur_loss + adv_loss + feat_match_loss
 
         stats = dict(
             generator_loss=loss.item(),
@@ -504,8 +516,9 @@ def _forward_discrminator(
         p = self.discriminator(speech_)
 
         # calculate losses
-        real_loss, fake_loss = self.discriminator_adv_loss(p_hat, p)
-        loss = real_loss + fake_loss
+        with autocast(enabled=False):
+            real_loss, fake_loss = self.discriminator_adv_loss(p_hat, p)
+            loss = real_loss + fake_loss
 
         stats = dict(
             discriminator_loss=loss.item(),
diff --git a/espnet2/gan_tts/wavenet/residual_block.py b/espnet2/gan_tts/wavenet/residual_block.py
index e568c7e7aa5..8385bacf60e 100644
--- a/espnet2/gan_tts/wavenet/residual_block.py
+++ b/espnet2/gan_tts/wavenet/residual_block.py
@@ -8,9 +8,7 @@
 """
 
 import math
-
-from typing import Optional
-from typing import Tuple
+from typing import Optional, Tuple
 
 import torch
 import torch.nn.functional as F
diff --git a/espnet2/gan_tts/wavenet/wavenet.py b/espnet2/gan_tts/wavenet/wavenet.py
index cd91cf47710..44533455c00 100644
--- a/espnet2/gan_tts/wavenet/wavenet.py
+++ b/espnet2/gan_tts/wavenet/wavenet.py
@@ -9,13 +9,11 @@
 
 import logging
 import math
-
 from typing import Optional
 
 import torch
 
-from espnet2.gan_tts.wavenet.residual_block import Conv1d1x1
-from espnet2.gan_tts.wavenet.residual_block import ResidualBlock
+from espnet2.gan_tts.wavenet.residual_block import Conv1d1x1, ResidualBlock
 
 
 class WaveNet(torch.nn.Module):
diff --git a/espnet2/hubert/espnet_model.py b/espnet2/hubert/espnet_model.py
index 4fa775841bc..4b8b256b555 100644
--- a/espnet2/hubert/espnet_model.py
+++ b/espnet2/hubert/espnet_model.py
@@ -7,18 +7,12 @@
 #     Code in Fairseq: https://github.com/pytorch/fairseq/tree/master/examples/hubert
 
 from contextlib import contextmanager
-from distutils.version import LooseVersion
-from typing import Dict
-from typing import List
-from typing import Optional
-from typing import Tuple
-from typing import Union
+from typing import Dict, List, Optional, Tuple, Union
 
 import torch
+from packaging.version import parse as V
 from typeguard import check_argument_types
 
-from espnet.nets.e2e_asr_common import ErrorCalculator
-
 from espnet2.asr.encoder.abs_encoder import AbsEncoder
 from espnet2.asr.frontend.abs_frontend import AbsFrontend
 from espnet2.asr.preencoder.abs_preencoder import AbsPreEncoder
@@ -27,8 +21,9 @@
 from espnet2.layers.abs_normalize import AbsNormalize
 from espnet2.torch_utils.device_funcs import force_gatherable
 from espnet2.train.abs_espnet_model import AbsESPnetModel
+from espnet.nets.e2e_asr_common import ErrorCalculator
 
-if LooseVersion(torch.__version__) >= LooseVersion("1.6.0"):
+if V(torch.__version__) >= V("1.6.0"):
     from torch.cuda.amp import autocast
 else:
     # Nothing to do if torch<1.6.0
diff --git a/espnet2/hubert/hubert_loss.py b/espnet2/hubert/hubert_loss.py
index af790177068..76c7c361bd0 100644
--- a/espnet2/hubert/hubert_loss.py
+++ b/espnet2/hubert/hubert_loss.py
@@ -11,8 +11,8 @@
 
 """Hubert Pretrain Loss module."""
 
-from torch import nn
 import torch.nn.functional as F
+from torch import nn
 
 
 class HubertPretrainLoss(nn.Module):
diff --git a/espnet2/iterators/abs_iter_factory.py b/espnet2/iterators/abs_iter_factory.py
index 36e4dd2c521..9f63a210a73 100644
--- a/espnet2/iterators/abs_iter_factory.py
+++ b/espnet2/iterators/abs_iter_factory.py
@@ -1,5 +1,4 @@
-from abc import ABC
-from abc import abstractmethod
+from abc import ABC, abstractmethod
 from typing import Iterator
 
 
diff --git a/espnet2/iterators/chunk_iter_factory.py b/espnet2/iterators/chunk_iter_factory.py
index 828710ab92f..7f5d82aa949 100644
--- a/espnet2/iterators/chunk_iter_factory.py
+++ b/espnet2/iterators/chunk_iter_factory.py
@@ -1,11 +1,5 @@
 import logging
-from typing import Any
-from typing import Dict
-from typing import Iterator
-from typing import List
-from typing import Sequence
-from typing import Tuple
-from typing import Union
+from typing import Any, Dict, Iterator, List, Sequence, Tuple, Union
 
 import numpy as np
 import torch
diff --git a/espnet2/iterators/multiple_iter_factory.py b/espnet2/iterators/multiple_iter_factory.py
index 28e3d2dcb61..29f174df9b8 100644
--- a/espnet2/iterators/multiple_iter_factory.py
+++ b/espnet2/iterators/multiple_iter_factory.py
@@ -1,7 +1,5 @@
 import logging
-from typing import Callable
-from typing import Collection
-from typing import Iterator
+from typing import Callable, Collection, Iterator
 
 import numpy as np
 from typeguard import check_argument_types
diff --git a/espnet2/iterators/sequence_iter_factory.py b/espnet2/iterators/sequence_iter_factory.py
index 48f61f8c7df..b80aee55345 100644
--- a/espnet2/iterators/sequence_iter_factory.py
+++ b/espnet2/iterators/sequence_iter_factory.py
@@ -1,6 +1,4 @@
-from typing import Any
-from typing import Sequence
-from typing import Union
+from typing import Any, Sequence, Union
 
 import numpy as np
 from torch.utils.data import DataLoader
diff --git a/espnet2/layers/abs_normalize.py b/espnet2/layers/abs_normalize.py
index f2be748dd7c..c908f38f74c 100644
--- a/espnet2/layers/abs_normalize.py
+++ b/espnet2/layers/abs_normalize.py
@@ -1,5 +1,4 @@
-from abc import ABC
-from abc import abstractmethod
+from abc import ABC, abstractmethod
 from typing import Tuple
 
 import torch
diff --git a/espnet2/layers/global_mvn.py b/espnet2/layers/global_mvn.py
index 31635cb4feb..819bce53a46 100644
--- a/espnet2/layers/global_mvn.py
+++ b/espnet2/layers/global_mvn.py
@@ -1,14 +1,13 @@
 from pathlib import Path
-from typing import Tuple
-from typing import Union
+from typing import Tuple, Union
 
 import numpy as np
 import torch
 from typeguard import check_argument_types
 
-from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
 from espnet2.layers.abs_normalize import AbsNormalize
 from espnet2.layers.inversible_interface import InversibleInterface
+from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
 
 
 class GlobalMVN(AbsNormalize, InversibleInterface):
diff --git a/espnet2/layers/inversible_interface.py b/espnet2/layers/inversible_interface.py
index a1a59399aae..30874a87e8f 100644
--- a/espnet2/layers/inversible_interface.py
+++ b/espnet2/layers/inversible_interface.py
@@ -1,5 +1,4 @@
-from abc import ABC
-from abc import abstractmethod
+from abc import ABC, abstractmethod
 from typing import Tuple
 
 import torch
diff --git a/espnet2/layers/label_aggregation.py b/espnet2/layers/label_aggregation.py
index fbd845842e6..e5201515301 100644
--- a/espnet2/layers/label_aggregation.py
+++ b/espnet2/layers/label_aggregation.py
@@ -1,7 +1,7 @@
+from typing import Optional, Tuple
+
 import torch
 from typeguard import check_argument_types
-from typing import Optional
-from typing import Tuple
 
 from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
 
diff --git a/espnet2/layers/log_mel.py b/espnet2/layers/log_mel.py
index 5caeadbe31e..631c83d46c9 100644
--- a/espnet2/layers/log_mel.py
+++ b/espnet2/layers/log_mel.py
@@ -1,6 +1,7 @@
+from typing import Tuple
+
 import librosa
 import torch
-from typing import Tuple
 
 from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
 
diff --git a/espnet2/layers/mask_along_axis.py b/espnet2/layers/mask_along_axis.py
index ecff6fa9659..96bd269113d 100644
--- a/espnet2/layers/mask_along_axis.py
+++ b/espnet2/layers/mask_along_axis.py
@@ -1,8 +1,8 @@
 import math
+from typing import Sequence, Union
+
 import torch
 from typeguard import check_argument_types
-from typing import Sequence
-from typing import Union
 
 
 def mask_along_axis(
diff --git a/espnet2/layers/sinc_conv.py b/espnet2/layers/sinc_conv.py
index 33df97fbcdf..a31683474b4 100644
--- a/espnet2/layers/sinc_conv.py
+++ b/espnet2/layers/sinc_conv.py
@@ -4,9 +4,10 @@
 
 """Sinc convolutions."""
 import math
+from typing import Union
+
 import torch
 from typeguard import check_argument_types
-from typing import Union
 
 
 class LogCompression(torch.nn.Module):
diff --git a/espnet2/layers/stft.py b/espnet2/layers/stft.py
index b888bfede82..9dee3ac681d 100644
--- a/espnet2/layers/stft.py
+++ b/espnet2/layers/stft.py
@@ -1,22 +1,20 @@
-from distutils.version import LooseVersion
-from typing import Optional
-from typing import Tuple
-from typing import Union
+from typing import Optional, Tuple, Union
 
+import librosa
+import numpy as np
 import torch
+from packaging.version import parse as V
 from torch_complex.tensor import ComplexTensor
 from typeguard import check_argument_types
 
-from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
 from espnet2.enh.layers.complex_utils import is_complex
 from espnet2.layers.inversible_interface import InversibleInterface
-import librosa
-import numpy as np
+from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
 
-is_torch_1_9_plus = LooseVersion(torch.__version__) >= LooseVersion("1.9.0")
+is_torch_1_9_plus = V(torch.__version__) >= V("1.9.0")
 
 
-is_torch_1_7_plus = LooseVersion(torch.__version__) >= LooseVersion("1.7")
+is_torch_1_7_plus = V(torch.__version__) >= V("1.7")
 
 
 class Stft(torch.nn.Module, InversibleInterface):
@@ -182,7 +180,7 @@ def inverse(
             wavs: (batch, samples)
             ilens: (batch,)
         """
-        if LooseVersion(torch.__version__) >= LooseVersion("1.6.0"):
+        if V(torch.__version__) >= V("1.6.0"):
             istft = torch.functional.istft
         else:
             try:
diff --git a/espnet2/layers/utterance_mvn.py b/espnet2/layers/utterance_mvn.py
index 4f1adb3e53b..b1d50b7aea6 100644
--- a/espnet2/layers/utterance_mvn.py
+++ b/espnet2/layers/utterance_mvn.py
@@ -3,8 +3,8 @@
 import torch
 from typeguard import check_argument_types
 
-from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
 from espnet2.layers.abs_normalize import AbsNormalize
+from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
 
 
 class UtteranceMVN(AbsNormalize):
diff --git a/espnet2/lm/abs_model.py b/espnet2/lm/abs_model.py
index ba5773d0126..5c96c0ed19c 100644
--- a/espnet2/lm/abs_model.py
+++ b/espnet2/lm/abs_model.py
@@ -1,5 +1,4 @@
-from abc import ABC
-from abc import abstractmethod
+from abc import ABC, abstractmethod
 from typing import Tuple
 
 import torch
diff --git a/espnet2/lm/espnet_model.py b/espnet2/lm/espnet_model.py
index de6cd114a25..bbaecb8d8ee 100644
--- a/espnet2/lm/espnet_model.py
+++ b/espnet2/lm/espnet_model.py
@@ -1,15 +1,13 @@
-from typing import Dict
-from typing import Optional
-from typing import Tuple
+from typing import Dict, Optional, Tuple
 
 import torch
 import torch.nn.functional as F
 from typeguard import check_argument_types
 
-from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
 from espnet2.lm.abs_model import AbsLM
 from espnet2.torch_utils.device_funcs import force_gatherable
 from espnet2.train.abs_espnet_model import AbsESPnetModel
+from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
 
 
 class ESPnetLanguageModel(AbsESPnetModel):
diff --git a/espnet2/lm/seq_rnn_lm.py b/espnet2/lm/seq_rnn_lm.py
index 9af85ed3cc7..05bca746efc 100644
--- a/espnet2/lm/seq_rnn_lm.py
+++ b/espnet2/lm/seq_rnn_lm.py
@@ -1,6 +1,5 @@
 """Sequential implementation of Recurrent Neural Network Language Model."""
-from typing import Tuple
-from typing import Union
+from typing import Tuple, Union
 
 import torch
 import torch.nn as nn
diff --git a/espnet2/lm/transformer_lm.py b/espnet2/lm/transformer_lm.py
index 57df87bb11c..cb8f00949cb 100644
--- a/espnet2/lm/transformer_lm.py
+++ b/espnet2/lm/transformer_lm.py
@@ -1,14 +1,12 @@
-from typing import Any
-from typing import List
-from typing import Tuple
+from typing import Any, List, Tuple
 
 import torch
 import torch.nn as nn
 
+from espnet2.lm.abs_model import AbsLM
 from espnet.nets.pytorch_backend.transformer.embedding import PositionalEncoding
 from espnet.nets.pytorch_backend.transformer.encoder import Encoder
 from espnet.nets.pytorch_backend.transformer.mask import subsequent_mask
-from espnet2.lm.abs_model import AbsLM
 
 
 class TransformerLM(AbsLM):
diff --git a/espnet2/main_funcs/average_nbest_models.py b/espnet2/main_funcs/average_nbest_models.py
index 4c278e23823..e706456e8ea 100644
--- a/espnet2/main_funcs/average_nbest_models.py
+++ b/espnet2/main_funcs/average_nbest_models.py
@@ -1,13 +1,10 @@
 import logging
-from pathlib import Path
-from typing import Optional
-from typing import Sequence
-from typing import Union
 import warnings
+from pathlib import Path
+from typing import Collection, Optional, Sequence, Union
 
 import torch
 from typeguard import check_argument_types
-from typing import Collection
 
 from espnet2.train.reporter import Reporter
 
diff --git a/espnet2/main_funcs/calculate_all_attentions.py b/espnet2/main_funcs/calculate_all_attentions.py
index 52fe045779b..338fc057b25 100644
--- a/espnet2/main_funcs/calculate_all_attentions.py
+++ b/espnet2/main_funcs/calculate_all_attentions.py
@@ -1,27 +1,26 @@
 from collections import defaultdict
-from typing import Dict
-from typing import List
+from typing import Dict, List
 
 import torch
 
-from espnet.nets.pytorch_backend.rnn.attentions import AttAdd
-from espnet.nets.pytorch_backend.rnn.attentions import AttCov
-from espnet.nets.pytorch_backend.rnn.attentions import AttCovLoc
-from espnet.nets.pytorch_backend.rnn.attentions import AttDot
-from espnet.nets.pytorch_backend.rnn.attentions import AttForward
-from espnet.nets.pytorch_backend.rnn.attentions import AttForwardTA
-from espnet.nets.pytorch_backend.rnn.attentions import AttLoc
-from espnet.nets.pytorch_backend.rnn.attentions import AttLoc2D
-from espnet.nets.pytorch_backend.rnn.attentions import AttLocRec
-from espnet.nets.pytorch_backend.rnn.attentions import AttMultiHeadAdd
-from espnet.nets.pytorch_backend.rnn.attentions import AttMultiHeadDot
-from espnet.nets.pytorch_backend.rnn.attentions import AttMultiHeadLoc
-from espnet.nets.pytorch_backend.rnn.attentions import AttMultiHeadMultiResLoc
-from espnet.nets.pytorch_backend.rnn.attentions import NoAtt
-from espnet.nets.pytorch_backend.transformer.attention import MultiHeadedAttention
-
-
 from espnet2.train.abs_espnet_model import AbsESPnetModel
+from espnet.nets.pytorch_backend.rnn.attentions import (
+    AttAdd,
+    AttCov,
+    AttCovLoc,
+    AttDot,
+    AttForward,
+    AttForwardTA,
+    AttLoc,
+    AttLoc2D,
+    AttLocRec,
+    AttMultiHeadAdd,
+    AttMultiHeadDot,
+    AttMultiHeadLoc,
+    AttMultiHeadMultiResLoc,
+    NoAtt,
+)
+from espnet.nets.pytorch_backend.transformer.attention import MultiHeadedAttention
 
 
 @torch.no_grad()
diff --git a/espnet2/main_funcs/collect_stats.py b/espnet2/main_funcs/collect_stats.py
index 297f7bfda7f..9edfcfac412 100644
--- a/espnet2/main_funcs/collect_stats.py
+++ b/espnet2/main_funcs/collect_stats.py
@@ -1,11 +1,7 @@
-from collections import defaultdict
 import logging
+from collections import defaultdict
 from pathlib import Path
-from typing import Dict
-from typing import Iterable
-from typing import List
-from typing import Optional
-from typing import Tuple
+from typing import Dict, Iterable, List, Optional, Tuple
 
 import numpy as np
 import torch
diff --git a/espnet2/main_funcs/pack_funcs.py b/espnet2/main_funcs/pack_funcs.py
index ffa807e23b6..c13dde41e25 100644
--- a/espnet2/main_funcs/pack_funcs.py
+++ b/espnet2/main_funcs/pack_funcs.py
@@ -1,15 +1,11 @@
-from datetime import datetime
-from io import BytesIO
-from io import TextIOWrapper
 import os
-from pathlib import Path
 import sys
 import tarfile
-from typing import Dict
-from typing import Iterable
-from typing import Optional
-from typing import Union
 import zipfile
+from datetime import datetime
+from io import BytesIO, TextIOWrapper
+from pathlib import Path
+from typing import Dict, Iterable, Optional, Union
 
 import yaml
 
diff --git a/espnet2/mt/espnet_model.py b/espnet2/mt/espnet_model.py
index 953d5bc02f8..cedefe284c0 100644
--- a/espnet2/mt/espnet_model.py
+++ b/espnet2/mt/espnet_model.py
@@ -1,21 +1,11 @@
-from contextlib import contextmanager
-from distutils.version import LooseVersion
 import logging
-from typing import Dict
-from typing import List
-from typing import Optional
-from typing import Tuple
-from typing import Union
+from contextlib import contextmanager
+from typing import Dict, List, Optional, Tuple, Union
 
 import torch
+from packaging.version import parse as V
 from typeguard import check_argument_types
 
-from espnet.nets.e2e_mt_common import ErrorCalculator as MTErrorCalculator
-from espnet.nets.pytorch_backend.nets_utils import th_accuracy
-from espnet.nets.pytorch_backend.transformer.add_sos_eos import add_sos_eos
-from espnet.nets.pytorch_backend.transformer.label_smoothing_loss import (
-    LabelSmoothingLoss,  # noqa: H301
-)
 from espnet2.asr.decoder.abs_decoder import AbsDecoder
 from espnet2.asr.encoder.abs_encoder import AbsEncoder
 from espnet2.asr.frontend.abs_frontend import AbsFrontend
@@ -23,8 +13,14 @@
 from espnet2.asr.preencoder.abs_preencoder import AbsPreEncoder
 from espnet2.torch_utils.device_funcs import force_gatherable
 from espnet2.train.abs_espnet_model import AbsESPnetModel
+from espnet.nets.e2e_mt_common import ErrorCalculator as MTErrorCalculator
+from espnet.nets.pytorch_backend.nets_utils import th_accuracy
+from espnet.nets.pytorch_backend.transformer.add_sos_eos import add_sos_eos
+from espnet.nets.pytorch_backend.transformer.label_smoothing_loss import (  # noqa: H301
+    LabelSmoothingLoss,
+)
 
-if LooseVersion(torch.__version__) >= LooseVersion("1.6.0"):
+if V(torch.__version__) >= V("1.6.0"):
     from torch.cuda.amp import autocast
 else:
     # Nothing to do if torch<1.6.0
diff --git a/espnet2/mt/frontend/embedding.py b/espnet2/mt/frontend/embedding.py
index b9044c1385f..cdcfa549811 100644
--- a/espnet2/mt/frontend/embedding.py
+++ b/espnet2/mt/frontend/embedding.py
@@ -4,11 +4,13 @@
 
 """Embedding Frontend for text based inputs."""
 
-from espnet.nets.pytorch_backend.transformer.embedding import PositionalEncoding
-from espnet2.asr.frontend.abs_frontend import AbsFrontend
+from typing import Tuple
+
 import torch
 from typeguard import check_argument_types
-from typing import Tuple
+
+from espnet2.asr.frontend.abs_frontend import AbsFrontend
+from espnet.nets.pytorch_backend.transformer.embedding import PositionalEncoding
 
 
 class Embedding(AbsFrontend):
diff --git a/espnet2/samplers/abs_sampler.py b/espnet2/samplers/abs_sampler.py
index 2f7aa539b8a..48e60e243f8 100644
--- a/espnet2/samplers/abs_sampler.py
+++ b/espnet2/samplers/abs_sampler.py
@@ -1,7 +1,5 @@
-from abc import ABC
-from abc import abstractmethod
-from typing import Iterator
-from typing import Tuple
+from abc import ABC, abstractmethod
+from typing import Iterator, Tuple
 
 from torch.utils.data import Sampler
 
diff --git a/espnet2/samplers/build_batch_sampler.py b/espnet2/samplers/build_batch_sampler.py
index 0775dd962f7..e9a2b77502d 100644
--- a/espnet2/samplers/build_batch_sampler.py
+++ b/espnet2/samplers/build_batch_sampler.py
@@ -1,10 +1,6 @@
-from typing import List
-from typing import Sequence
-from typing import Tuple
-from typing import Union
+from typing import List, Sequence, Tuple, Union
 
-from typeguard import check_argument_types
-from typeguard import check_return_type
+from typeguard import check_argument_types, check_return_type
 
 from espnet2.samplers.abs_sampler import AbsSampler
 from espnet2.samplers.folded_batch_sampler import FoldedBatchSampler
@@ -13,7 +9,6 @@
 from espnet2.samplers.sorted_batch_sampler import SortedBatchSampler
 from espnet2.samplers.unsorted_batch_sampler import UnsortedBatchSampler
 
-
 BATCH_TYPES = dict(
     unsorted="UnsortedBatchSampler has nothing in particular feature and "
     "just creates mini-batches which has constant batch_size. "
diff --git a/espnet2/samplers/folded_batch_sampler.py b/espnet2/samplers/folded_batch_sampler.py
index 4d2e941e3d4..e1e85cd084e 100644
--- a/espnet2/samplers/folded_batch_sampler.py
+++ b/espnet2/samplers/folded_batch_sampler.py
@@ -1,13 +1,8 @@
-from typing import Iterator
-from typing import List
-from typing import Sequence
-from typing import Tuple
-from typing import Union
+from typing import Iterator, List, Sequence, Tuple, Union
 
 from typeguard import check_argument_types
 
-from espnet2.fileio.read_text import load_num_sequence_text
-from espnet2.fileio.read_text import read_2column_text
+from espnet2.fileio.read_text import load_num_sequence_text, read_2column_text
 from espnet2.samplers.abs_sampler import AbsSampler
 
 
diff --git a/espnet2/samplers/length_batch_sampler.py b/espnet2/samplers/length_batch_sampler.py
index 522a4b49e14..5e1cf6e3e6d 100644
--- a/espnet2/samplers/length_batch_sampler.py
+++ b/espnet2/samplers/length_batch_sampler.py
@@ -1,7 +1,4 @@
-from typing import Iterator
-from typing import List
-from typing import Tuple
-from typing import Union
+from typing import Iterator, List, Tuple, Union
 
 from typeguard import check_argument_types
 
diff --git a/espnet2/samplers/num_elements_batch_sampler.py b/espnet2/samplers/num_elements_batch_sampler.py
index 46ff177b8f3..31569e2e81f 100644
--- a/espnet2/samplers/num_elements_batch_sampler.py
+++ b/espnet2/samplers/num_elements_batch_sampler.py
@@ -1,7 +1,4 @@
-from typing import Iterator
-from typing import List
-from typing import Tuple
-from typing import Union
+from typing import Iterator, List, Tuple, Union
 
 import numpy as np
 from typeguard import check_argument_types
diff --git a/espnet2/samplers/sorted_batch_sampler.py b/espnet2/samplers/sorted_batch_sampler.py
index 4649f9a4fd7..be26aa56010 100644
--- a/espnet2/samplers/sorted_batch_sampler.py
+++ b/espnet2/samplers/sorted_batch_sampler.py
@@ -1,6 +1,5 @@
 import logging
-from typing import Iterator
-from typing import Tuple
+from typing import Iterator, Tuple
 
 from typeguard import check_argument_types
 
diff --git a/espnet2/samplers/unsorted_batch_sampler.py b/espnet2/samplers/unsorted_batch_sampler.py
index 33a22090ac2..32937977f46 100644
--- a/espnet2/samplers/unsorted_batch_sampler.py
+++ b/espnet2/samplers/unsorted_batch_sampler.py
@@ -1,6 +1,5 @@
 import logging
-from typing import Iterator
-from typing import Tuple
+from typing import Iterator, Tuple
 
 from typeguard import check_argument_types
 
diff --git a/espnet2/schedulers/abs_scheduler.py b/espnet2/schedulers/abs_scheduler.py
index 7395f259c3e..ea79767833a 100644
--- a/espnet2/schedulers/abs_scheduler.py
+++ b/espnet2/schedulers/abs_scheduler.py
@@ -1,5 +1,4 @@
-from abc import ABC
-from abc import abstractmethod
+from abc import ABC, abstractmethod
 
 import torch.optim.lr_scheduler as L
 
diff --git a/espnet2/schedulers/noam_lr.py b/espnet2/schedulers/noam_lr.py
index 1c9aeb152da..c9402755fa5 100644
--- a/espnet2/schedulers/noam_lr.py
+++ b/espnet2/schedulers/noam_lr.py
@@ -1,6 +1,6 @@
 """Noam learning rate scheduler module."""
-from typing import Union
 import warnings
+from typing import Union
 
 import torch
 from torch.optim.lr_scheduler import _LRScheduler
diff --git a/espnet2/st/espnet_model.py b/espnet2/st/espnet_model.py
index e298ef1822d..ff19e11201a 100644
--- a/espnet2/st/espnet_model.py
+++ b/espnet2/st/espnet_model.py
@@ -1,22 +1,11 @@
-from contextlib import contextmanager
-from distutils.version import LooseVersion
 import logging
-from typing import Dict
-from typing import List
-from typing import Optional
-from typing import Tuple
-from typing import Union
+from contextlib import contextmanager
+from typing import Dict, List, Optional, Tuple, Union
 
 import torch
+from packaging.version import parse as V
 from typeguard import check_argument_types
 
-from espnet.nets.e2e_asr_common import ErrorCalculator as ASRErrorCalculator
-from espnet.nets.e2e_mt_common import ErrorCalculator as MTErrorCalculator
-from espnet.nets.pytorch_backend.nets_utils import th_accuracy
-from espnet.nets.pytorch_backend.transformer.add_sos_eos import add_sos_eos
-from espnet.nets.pytorch_backend.transformer.label_smoothing_loss import (
-    LabelSmoothingLoss,  # noqa: H301
-)
 from espnet2.asr.ctc import CTC
 from espnet2.asr.decoder.abs_decoder import AbsDecoder
 from espnet2.asr.encoder.abs_encoder import AbsEncoder
@@ -27,8 +16,15 @@
 from espnet2.layers.abs_normalize import AbsNormalize
 from espnet2.torch_utils.device_funcs import force_gatherable
 from espnet2.train.abs_espnet_model import AbsESPnetModel
+from espnet.nets.e2e_asr_common import ErrorCalculator as ASRErrorCalculator
+from espnet.nets.e2e_mt_common import ErrorCalculator as MTErrorCalculator
+from espnet.nets.pytorch_backend.nets_utils import th_accuracy
+from espnet.nets.pytorch_backend.transformer.add_sos_eos import add_sos_eos
+from espnet.nets.pytorch_backend.transformer.label_smoothing_loss import (  # noqa: H301
+    LabelSmoothingLoss,
+)
 
-if LooseVersion(torch.__version__) >= LooseVersion("1.6.0"):
+if V(torch.__version__) >= V("1.6.0"):
     from torch.cuda.amp import autocast
 else:
     # Nothing to do if torch<1.6.0
@@ -53,9 +49,9 @@ def __init__(
         decoder: AbsDecoder,
         extra_asr_decoder: Optional[AbsDecoder],
         extra_mt_decoder: Optional[AbsDecoder],
-        ctc: CTC,
-        src_vocab_size: int = 0,
-        src_token_list: Union[Tuple[str, ...], List[str]] = [],
+        ctc: Optional[CTC],
+        src_vocab_size: Optional[int],
+        src_token_list: Optional[Union[Tuple[str, ...], List[str]]],
         asr_weight: float = 0.0,
         mt_weight: float = 0.0,
         mtlalpha: float = 0.0,
diff --git a/espnet2/tasks/abs_task.py b/espnet2/tasks/abs_task.py
index 5e8044be2ce..06d2663efb0 100644
--- a/espnet2/tasks/abs_task.py
+++ b/espnet2/tasks/abs_task.py
@@ -1,22 +1,13 @@
 """Abstract task module."""
-from abc import ABC
-from abc import abstractmethod
 import argparse
-from dataclasses import dataclass
-from distutils.version import LooseVersion
 import functools
 import logging
 import os
-from pathlib import Path
 import sys
-from typing import Any
-from typing import Callable
-from typing import Dict
-from typing import List
-from typing import Optional
-from typing import Sequence
-from typing import Tuple
-from typing import Union
+from abc import ABC, abstractmethod
+from dataclasses import dataclass
+from pathlib import Path
+from typing import Any, Callable, Dict, List, Optional, Sequence, Tuple, Union
 
 import humanfriendly
 import numpy as np
@@ -24,21 +15,19 @@
 import torch.multiprocessing
 import torch.nn
 import torch.optim
-from torch.utils.data import DataLoader
-from typeguard import check_argument_types
-from typeguard import check_return_type
 import yaml
+from packaging.version import parse as V
+from torch.utils.data import DataLoader
+from typeguard import check_argument_types, check_return_type
 
 from espnet import __version__
-from espnet.utils.cli_utils import get_commandline_args
 from espnet2.iterators.abs_iter_factory import AbsIterFactory
 from espnet2.iterators.chunk_iter_factory import ChunkIterFactory
 from espnet2.iterators.multiple_iter_factory import MultipleIterFactory
 from espnet2.iterators.sequence_iter_factory import SequenceIterFactory
 from espnet2.main_funcs.collect_stats import collect_stats
 from espnet2.optimizers.sgd import SGD
-from espnet2.samplers.build_batch_sampler import BATCH_TYPES
-from espnet2.samplers.build_batch_sampler import build_batch_sampler
+from espnet2.samplers.build_batch_sampler import BATCH_TYPES, build_batch_sampler
 from espnet2.samplers.unsorted_batch_sampler import UnsortedBatchSampler
 from espnet2.schedulers.noam_lr import NoamLR
 from espnet2.schedulers.warmup_lr import WarmupLR
@@ -48,35 +37,38 @@
 from espnet2.torch_utils.set_all_random_seed import set_all_random_seed
 from espnet2.train.abs_espnet_model import AbsESPnetModel
 from espnet2.train.class_choices import ClassChoices
-from espnet2.train.dataset import AbsDataset
-from espnet2.train.dataset import DATA_TYPES
-from espnet2.train.dataset import ESPnetDataset
-from espnet2.train.distributed_utils import DistributedOption
-from espnet2.train.distributed_utils import free_port
-from espnet2.train.distributed_utils import get_master_port
-from espnet2.train.distributed_utils import get_node_rank
-from espnet2.train.distributed_utils import get_num_nodes
-from espnet2.train.distributed_utils import resolve_distributed_mode
+from espnet2.train.dataset import DATA_TYPES, AbsDataset, ESPnetDataset
+from espnet2.train.distributed_utils import (
+    DistributedOption,
+    free_port,
+    get_master_port,
+    get_node_rank,
+    get_num_nodes,
+    resolve_distributed_mode,
+)
 from espnet2.train.iterable_dataset import IterableESPnetDataset
 from espnet2.train.trainer import Trainer
-from espnet2.utils.build_dataclass import build_dataclass
 from espnet2.utils import config_argparse
+from espnet2.utils.build_dataclass import build_dataclass
 from espnet2.utils.get_default_kwargs import get_default_kwargs
 from espnet2.utils.nested_dict_action import NestedDictAction
-from espnet2.utils.types import humanfriendly_parse_size_or_none
-from espnet2.utils.types import int_or_none
-from espnet2.utils.types import str2bool
-from espnet2.utils.types import str2triple_str
-from espnet2.utils.types import str_or_int
-from espnet2.utils.types import str_or_none
+from espnet2.utils.types import (
+    humanfriendly_parse_size_or_none,
+    int_or_none,
+    str2bool,
+    str2triple_str,
+    str_or_int,
+    str_or_none,
+)
 from espnet2.utils.yaml_no_alias_safe_dump import yaml_no_alias_safe_dump
+from espnet.utils.cli_utils import get_commandline_args
 
 try:
     import wandb
 except Exception:
     wandb = None
 
-if LooseVersion(torch.__version__) >= LooseVersion("1.5.0"):
+if V(torch.__version__) >= V("1.5.0"):
     from torch.multiprocessing.spawn import ProcessContext
 else:
     from torch.multiprocessing.spawn import SpawnContext as ProcessContext
@@ -94,7 +86,7 @@
     rmsprop=torch.optim.RMSprop,
     rprop=torch.optim.Rprop,
 )
-if LooseVersion(torch.__version__) >= LooseVersion("1.10.0"):
+if V(torch.__version__) >= V("1.10.0"):
     # From 1.10.0, RAdam is officially supported
     optim_classes.update(
         radam=torch.optim.RAdam,
@@ -116,7 +108,7 @@
         sgdw=torch_optimizer.SGDW,
         yogi=torch_optimizer.Yogi,
     )
-    if LooseVersion(torch_optimizer.__version__) < LooseVersion("0.2.0"):
+    if V(torch_optimizer.__version__) < V("0.2.0"):
         # From 0.2.0, RAdam is dropped
         optim_classes.update(
             radam=torch_optimizer.RAdam,
@@ -1300,7 +1292,7 @@ def main_worker(cls, args: argparse.Namespace):
                         name=name,
                         dir=output_dir,
                         id=args.wandb_id,
-                        resume="allow",
+                        resume=args.resume,
                     )
                     wandb.config.update(args)
                 else:
diff --git a/espnet2/tasks/asr.py b/espnet2/tasks/asr.py
index 9ab3c9ca7fd..54469e8453d 100644
--- a/espnet2/tasks/asr.py
+++ b/espnet2/tasks/asr.py
@@ -1,46 +1,37 @@
 import argparse
 import logging
-from typing import Callable
-from typing import Collection
-from typing import Dict
-from typing import List
-from typing import Optional
-from typing import Tuple
+from typing import Callable, Collection, Dict, List, Optional, Tuple
 
 import numpy as np
 import torch
-from typeguard import check_argument_types
-from typeguard import check_return_type
+from typeguard import check_argument_types, check_return_type
 
 from espnet2.asr.ctc import CTC
 from espnet2.asr.decoder.abs_decoder import AbsDecoder
 from espnet2.asr.decoder.mlm_decoder import MLMDecoder
 from espnet2.asr.decoder.rnn_decoder import RNNDecoder
 from espnet2.asr.decoder.transformer_decoder import (
-    DynamicConvolution2DTransformerDecoder,  # noqa: H301
+    DynamicConvolution2DTransformerDecoder,
+    DynamicConvolutionTransformerDecoder,
+    LightweightConvolution2DTransformerDecoder,
+    LightweightConvolutionTransformerDecoder,
+    TransformerDecoder,
 )
-from espnet2.asr.decoder.transformer_decoder import DynamicConvolutionTransformerDecoder
-from espnet2.asr.decoder.transformer_decoder import (
-    LightweightConvolution2DTransformerDecoder,  # noqa: H301
-)
-from espnet2.asr.decoder.transformer_decoder import (
-    LightweightConvolutionTransformerDecoder,  # noqa: H301
-)
-from espnet2.asr.decoder.transformer_decoder import TransformerDecoder
 from espnet2.asr.encoder.abs_encoder import AbsEncoder
 from espnet2.asr.encoder.conformer_encoder import ConformerEncoder
-from espnet2.asr.encoder.longformer_encoder import LongformerEncoder
-
-from espnet2.asr.encoder.hubert_encoder import FairseqHubertEncoder
-from espnet2.asr.encoder.hubert_encoder import FairseqHubertPretrainEncoder
-from espnet2.asr.encoder.rnn_encoder import RNNEncoder
-from espnet2.asr.encoder.transformer_encoder import TransformerEncoder
+from espnet2.asr.encoder.contextual_block_conformer_encoder import (
+    ContextualBlockConformerEncoder,
+)
 from espnet2.asr.encoder.contextual_block_transformer_encoder import (
-    ContextualBlockTransformerEncoder,  # noqa: H301
+    ContextualBlockTransformerEncoder,
 )
-from espnet2.asr.encoder.contextual_block_conformer_encoder import (
-    ContextualBlockConformerEncoder,  # noqa: H301
+from espnet2.asr.encoder.hubert_encoder import (
+    FairseqHubertEncoder,
+    FairseqHubertPretrainEncoder,
 )
+from espnet2.asr.encoder.longformer_encoder import LongformerEncoder
+from espnet2.asr.encoder.rnn_encoder import RNNEncoder
+from espnet2.asr.encoder.transformer_encoder import TransformerEncoder
 from espnet2.asr.encoder.vgg_rnn_encoder import VGGRNNEncoder
 from espnet2.asr.encoder.wav2vec2_encoder import FairSeqWav2Vec2Encoder
 from espnet2.asr.espnet_model import ESPnetASRModel
@@ -52,7 +43,7 @@
 from espnet2.asr.maskctc_model import MaskCTCModel
 from espnet2.asr.postencoder.abs_postencoder import AbsPostEncoder
 from espnet2.asr.postencoder.hugging_face_transformers_postencoder import (
-    HuggingFaceTransformersPostEncoder,  # noqa: H301
+    HuggingFaceTransformersPostEncoder,
 )
 from espnet2.asr.preencoder.abs_preencoder import AbsPreEncoder
 from espnet2.asr.preencoder.linear import LinearProjection
@@ -74,10 +65,7 @@
 from espnet2.train.trainer import Trainer
 from espnet2.utils.get_default_kwargs import get_default_kwargs
 from espnet2.utils.nested_dict_action import NestedDictAction
-from espnet2.utils.types import float_or_none
-from espnet2.utils.types import int_or_none
-from espnet2.utils.types import str2bool
-from espnet2.utils.types import str_or_none
+from espnet2.utils.types import float_or_none, int_or_none, str2bool, str_or_none
 
 frontend_choices = ClassChoices(
     name="frontend",
diff --git a/espnet2/tasks/diar.py b/espnet2/tasks/diar.py
index e01a59532a0..b86aef53de0 100644
--- a/espnet2/tasks/diar.py
+++ b/espnet2/tasks/diar.py
@@ -1,15 +1,9 @@
 import argparse
-from typing import Callable
-from typing import Collection
-from typing import Dict
-from typing import List
-from typing import Optional
-from typing import Tuple
+from typing import Callable, Collection, Dict, List, Optional, Tuple
 
 import numpy as np
 import torch
-from typeguard import check_argument_types
-from typeguard import check_return_type
+from typeguard import check_argument_types, check_return_type
 
 from espnet2.asr.encoder.abs_encoder import AbsEncoder
 from espnet2.asr.encoder.conformer_encoder import ConformerEncoder
@@ -38,9 +32,7 @@
 from espnet2.train.trainer import Trainer
 from espnet2.utils.get_default_kwargs import get_default_kwargs
 from espnet2.utils.nested_dict_action import NestedDictAction
-from espnet2.utils.types import int_or_none
-from espnet2.utils.types import str2bool
-from espnet2.utils.types import str_or_none
+from espnet2.utils.types import int_or_none, str2bool, str_or_none
 
 frontend_choices = ClassChoices(
     name="frontend",
diff --git a/espnet2/tasks/enh.py b/espnet2/tasks/enh.py
index 068ae246dec..e9c2421772b 100644
--- a/espnet2/tasks/enh.py
+++ b/espnet2/tasks/enh.py
@@ -1,15 +1,9 @@
 import argparse
-from typing import Callable
-from typing import Collection
-from typing import Dict
-from typing import List
-from typing import Optional
-from typing import Tuple
+from typing import Callable, Collection, Dict, List, Optional, Tuple
 
 import numpy as np
 import torch
-from typeguard import check_argument_types
-from typeguard import check_return_type
+from typeguard import check_argument_types, check_return_type
 
 from espnet2.enh.decoder.abs_decoder import AbsDecoder
 from espnet2.enh.decoder.conv_decoder import ConvDecoder
@@ -21,24 +15,33 @@
 from espnet2.enh.encoder.stft_encoder import STFTEncoder
 from espnet2.enh.espnet_model import ESPnetEnhancementModel
 from espnet2.enh.loss.criterions.abs_loss import AbsEnhLoss
-from espnet2.enh.loss.criterions.tf_domain import FrequencyDomainAbsCoherence
-from espnet2.enh.loss.criterions.tf_domain import FrequencyDomainL1
-from espnet2.enh.loss.criterions.tf_domain import FrequencyDomainMSE
-from espnet2.enh.loss.criterions.time_domain import CISDRLoss
-from espnet2.enh.loss.criterions.time_domain import SDRLoss
-from espnet2.enh.loss.criterions.time_domain import SISNRLoss
-from espnet2.enh.loss.criterions.time_domain import SNRLoss
-from espnet2.enh.loss.criterions.time_domain import TimeDomainL1
-from espnet2.enh.loss.criterions.time_domain import TimeDomainMSE
+from espnet2.enh.loss.criterions.tf_domain import (
+    FrequencyDomainAbsCoherence,
+    FrequencyDomainDPCL,
+    FrequencyDomainL1,
+    FrequencyDomainMSE,
+)
+from espnet2.enh.loss.criterions.time_domain import (
+    CISDRLoss,
+    SDRLoss,
+    SISNRLoss,
+    SNRLoss,
+    TimeDomainL1,
+    TimeDomainMSE,
+)
 from espnet2.enh.loss.wrappers.abs_wrapper import AbsLossWrapper
+from espnet2.enh.loss.wrappers.dpcl_solver import DPCLSolver
 from espnet2.enh.loss.wrappers.fixed_order import FixedOrderSolver
 from espnet2.enh.loss.wrappers.multilayer_pit_solver import MultiLayerPITSolver
 from espnet2.enh.loss.wrappers.pit_solver import PITSolver
 from espnet2.enh.separator.abs_separator import AbsSeparator
 from espnet2.enh.separator.asteroid_models import AsteroidModel_Converter
 from espnet2.enh.separator.conformer_separator import ConformerSeparator
+from espnet2.enh.separator.dan_separator import DANSeparator
 from espnet2.enh.separator.dc_crn_separator import DC_CRNSeparator
 from espnet2.enh.separator.dccrn_separator import DCCRNSeparator
+from espnet2.enh.separator.dpcl_e2e_separator import DPCLE2ESeparator
+from espnet2.enh.separator.dpcl_separator import DPCLSeparator
 from espnet2.enh.separator.dprnn_separator import DPRNNSeparator
 from espnet2.enh.separator.fasnet_separator import FaSNetSeparator
 from espnet2.enh.separator.neural_beamformer import NeuralBeamformer
@@ -54,8 +57,7 @@
 from espnet2.train.trainer import Trainer
 from espnet2.utils.get_default_kwargs import get_default_kwargs
 from espnet2.utils.nested_dict_action import NestedDictAction
-from espnet2.utils.types import str2bool
-from espnet2.utils.types import str_or_none
+from espnet2.utils.types import str2bool, str_or_none
 
 encoder_choices = ClassChoices(
     name="encoder",
@@ -69,8 +71,11 @@
     classes=dict(
         asteroid=AsteroidModel_Converter,
         conformer=ConformerSeparator,
+        dan=DANSeparator,
         dc_crn=DC_CRNSeparator,
         dccrn=DCCRNSeparator,
+        dpcl=DPCLSeparator,
+        dpcl_e2e=DPCLE2ESeparator,
         dprnn=DPRNNSeparator,
         fasnet=FaSNetSeparator,
         rnn=RNNSeparator,
@@ -94,7 +99,10 @@
 loss_wrapper_choices = ClassChoices(
     name="loss_wrappers",
     classes=dict(
-        pit=PITSolver, fixed_order=FixedOrderSolver, multilayer_pit=MultiLayerPITSolver
+        pit=PITSolver,
+        fixed_order=FixedOrderSolver,
+        multilayer_pit=MultiLayerPITSolver,
+        dpcl=DPCLSolver,
     ),
     type_check=AbsLossWrapper,
     default=None,
@@ -109,6 +117,7 @@
         si_snr=SISNRLoss,
         snr=SNRLoss,
         l1=FrequencyDomainL1,
+        dpcl=FrequencyDomainDPCL,
         l1_fd=FrequencyDomainL1,
         l1_td=TimeDomainL1,
         mse=FrequencyDomainMSE,
diff --git a/espnet2/tasks/enh_s2t.py b/espnet2/tasks/enh_s2t.py
index d6a20bac700..a094571d0a3 100644
--- a/espnet2/tasks/enh_s2t.py
+++ b/espnet2/tasks/enh_s2t.py
@@ -1,17 +1,11 @@
 import argparse
 import copy
 import logging
-from typing import Callable
-from typing import Collection
-from typing import Dict
-from typing import List
-from typing import Optional
-from typing import Tuple
+from typing import Callable, Collection, Dict, List, Optional, Tuple
 
 import numpy as np
 import torch
-from typeguard import check_argument_types
-from typeguard import check_return_type
+from typeguard import check_argument_types, check_return_type
 
 from espnet2.asr.ctc import CTC
 from espnet2.asr.espnet_model import ESPnetASRModel
@@ -21,34 +15,32 @@
 from espnet2.tasks.asr import ASRTask
 from espnet2.tasks.asr import decoder_choices as asr_decoder_choices_
 from espnet2.tasks.asr import encoder_choices as asr_encoder_choices_
-from espnet2.tasks.asr import frontend_choices
-from espnet2.tasks.asr import normalize_choices
+from espnet2.tasks.asr import frontend_choices, normalize_choices
 from espnet2.tasks.asr import postencoder_choices as asr_postencoder_choices_
 from espnet2.tasks.asr import preencoder_choices as asr_preencoder_choices_
 from espnet2.tasks.asr import specaug_choices
+from espnet2.tasks.enh import EnhancementTask
 from espnet2.tasks.enh import decoder_choices as enh_decoder_choices_
 from espnet2.tasks.enh import encoder_choices as enh_encoder_choices_
-from espnet2.tasks.enh import EnhancementTask
 from espnet2.tasks.enh import separator_choices as enh_separator_choices_
+from espnet2.tasks.st import STTask
 from espnet2.tasks.st import decoder_choices as st_decoder_choices_
 from espnet2.tasks.st import encoder_choices as st_encoder_choices_
 from espnet2.tasks.st import extra_asr_decoder_choices as st_extra_asr_decoder_choices_
 from espnet2.tasks.st import extra_mt_decoder_choices as st_extra_mt_decoder_choices_
 from espnet2.tasks.st import postencoder_choices as st_postencoder_choices_
 from espnet2.tasks.st import preencoder_choices as st_preencoder_choices_
-from espnet2.tasks.st import STTask
 from espnet2.text.phoneme_tokenizer import g2p_choices
 from espnet2.torch_utils.initialize import initialize
 from espnet2.train.collate_fn import CommonCollateFn
-from espnet2.train.preprocessor import CommonPreprocessor_multi
-from espnet2.train.preprocessor import MutliTokenizerCommonPreprocessor
+from espnet2.train.preprocessor import (
+    CommonPreprocessor_multi,
+    MutliTokenizerCommonPreprocessor,
+)
 from espnet2.train.trainer import Trainer
 from espnet2.utils.get_default_kwargs import get_default_kwargs
 from espnet2.utils.nested_dict_action import NestedDictAction
-from espnet2.utils.types import int_or_none
-from espnet2.utils.types import str2bool
-from espnet2.utils.types import str_or_none
-
+from espnet2.utils.types import int_or_none, str2bool, str_or_none
 
 # Enhancement
 enh_encoder_choices = copy.deepcopy(enh_encoder_choices_)
diff --git a/espnet2/tasks/gan_tts.py b/espnet2/tasks/gan_tts.py
index bfdc343407f..1a139218b8a 100644
--- a/espnet2/tasks/gan_tts.py
+++ b/espnet2/tasks/gan_tts.py
@@ -5,29 +5,21 @@
 
 import argparse
 import logging
-
-from typing import Callable
-from typing import Collection
-from typing import Dict
-from typing import List
-from typing import Optional
-from typing import Tuple
+from typing import Callable, Collection, Dict, List, Optional, Tuple
 
 import numpy as np
 import torch
-
-from typeguard import check_argument_types
-from typeguard import check_return_type
+from typeguard import check_argument_types, check_return_type
 
 from espnet2.gan_tts.abs_gan_tts import AbsGANTTS
 from espnet2.gan_tts.espnet_model import ESPnetGANTTSModel
+from espnet2.gan_tts.jets import JETS
 from espnet2.gan_tts.joint import JointText2Wav
 from espnet2.gan_tts.vits import VITS
 from espnet2.layers.abs_normalize import AbsNormalize
 from espnet2.layers.global_mvn import GlobalMVN
 from espnet2.layers.utterance_mvn import UtteranceMVN
-from espnet2.tasks.abs_task import AbsTask
-from espnet2.tasks.abs_task import optim_classes
+from espnet2.tasks.abs_task import AbsTask, optim_classes
 from espnet2.text.phoneme_tokenizer import g2p_choices
 from espnet2.train.class_choices import ClassChoices
 from espnet2.train.collate_fn import CommonCollateFn
@@ -41,9 +33,7 @@
 from espnet2.tts.feats_extract.log_spectrogram import LogSpectrogram
 from espnet2.utils.get_default_kwargs import get_default_kwargs
 from espnet2.utils.nested_dict_action import NestedDictAction
-from espnet2.utils.types import int_or_none
-from espnet2.utils.types import str2bool
-from espnet2.utils.types import str_or_none
+from espnet2.utils.types import int_or_none, str2bool, str_or_none
 
 feats_extractor_choices = ClassChoices(
     "feats_extract",
@@ -70,6 +60,7 @@
     classes=dict(
         vits=VITS,
         joint_text2wav=JointText2Wav,
+        jets=JETS,
     ),
     type_check=AbsGANTTS,
     default="vits",
@@ -221,7 +212,9 @@ def build_collate_fn(
     ]:
         assert check_argument_types()
         return CommonCollateFn(
-            float_pad_value=0.0, int_pad_value=0, not_sequence=["spembs", "sids"]
+            float_pad_value=0.0,
+            int_pad_value=0,
+            not_sequence=["spembs", "sids", "lids"],
         )
 
     @classmethod
@@ -260,10 +253,25 @@ def optional_data_names(
         cls, train: bool = True, inference: bool = False
     ) -> Tuple[str, ...]:
         if not inference:
-            retval = ("spembs", "sids", "durations", "pitch", "energy")
+            retval = (
+                "spembs",
+                "durations",
+                "pitch",
+                "energy",
+                "sids",
+                "lids",
+            )
         else:
             # Inference mode
-            retval = ("spembs", "sids", "speech", "durations", "pitch", "energy")
+            retval = (
+                "spembs",
+                "speech",
+                "durations",
+                "pitch",
+                "energy",
+                "sids",
+                "lids",
+            )
         return retval
 
     @classmethod
diff --git a/espnet2/tasks/hubert.py b/espnet2/tasks/hubert.py
index 2c4fc9634d2..3c11056061b 100644
--- a/espnet2/tasks/hubert.py
+++ b/espnet2/tasks/hubert.py
@@ -7,21 +7,15 @@
 #     Code in Fairseq: https://github.com/pytorch/fairseq/tree/master/examples/hubert
 import argparse
 import logging
-from typing import Callable
-from typing import Collection
-from typing import Dict
-from typing import List
-from typing import Optional
-from typing import Tuple
+from typing import Callable, Collection, Dict, List, Optional, Tuple
 
 import numpy as np
 import torch
-from typeguard import check_argument_types
-from typeguard import check_return_type
+from typeguard import check_argument_types, check_return_type
 
 from espnet2.asr.encoder.abs_encoder import AbsEncoder
-from espnet2.asr.encoder.hubert_encoder import (
-    FairseqHubertPretrainEncoder,  # noqa: H301
+from espnet2.asr.encoder.hubert_encoder import (  # noqa: H301
+    FairseqHubertPretrainEncoder,
 )
 from espnet2.asr.frontend.abs_frontend import AbsFrontend
 from espnet2.asr.frontend.default import DefaultFrontend
@@ -43,10 +37,7 @@
 from espnet2.train.trainer import Trainer
 from espnet2.utils.get_default_kwargs import get_default_kwargs
 from espnet2.utils.nested_dict_action import NestedDictAction
-from espnet2.utils.types import float_or_none
-from espnet2.utils.types import int_or_none
-from espnet2.utils.types import str2bool
-from espnet2.utils.types import str_or_none
+from espnet2.utils.types import float_or_none, int_or_none, str2bool, str_or_none
 
 frontend_choices = ClassChoices(
     name="frontend",
diff --git a/espnet2/tasks/lm.py b/espnet2/tasks/lm.py
index eea17464ca5..bbb9847bed2 100644
--- a/espnet2/tasks/lm.py
+++ b/espnet2/tasks/lm.py
@@ -1,16 +1,10 @@
 import argparse
 import logging
-from typing import Callable
-from typing import Collection
-from typing import Dict
-from typing import List
-from typing import Optional
-from typing import Tuple
+from typing import Callable, Collection, Dict, List, Optional, Tuple
 
 import numpy as np
 import torch
-from typeguard import check_argument_types
-from typeguard import check_return_type
+from typeguard import check_argument_types, check_return_type
 
 from espnet2.lm.abs_model import AbsLM
 from espnet2.lm.espnet_model import ESPnetLanguageModel
@@ -25,9 +19,7 @@
 from espnet2.train.trainer import Trainer
 from espnet2.utils.get_default_kwargs import get_default_kwargs
 from espnet2.utils.nested_dict_action import NestedDictAction
-from espnet2.utils.types import str2bool
-from espnet2.utils.types import str_or_none
-
+from espnet2.utils.types import str2bool, str_or_none
 
 lm_choices = ClassChoices(
     "lm",
diff --git a/espnet2/tasks/mt.py b/espnet2/tasks/mt.py
index 496b48b96e7..08525435778 100644
--- a/espnet2/tasks/mt.py
+++ b/espnet2/tasks/mt.py
@@ -1,42 +1,32 @@
 import argparse
 import logging
-from typing import Callable
-from typing import Collection
-from typing import Dict
-from typing import List
-from typing import Optional
-from typing import Tuple
+from typing import Callable, Collection, Dict, List, Optional, Tuple
 
 import numpy as np
 import torch
-from typeguard import check_argument_types
-from typeguard import check_return_type
+from typeguard import check_argument_types, check_return_type
 
 from espnet2.asr.decoder.abs_decoder import AbsDecoder
 from espnet2.asr.decoder.rnn_decoder import RNNDecoder
 from espnet2.asr.decoder.transformer_decoder import (
-    DynamicConvolution2DTransformerDecoder,  # noqa: H301
+    DynamicConvolution2DTransformerDecoder,
+    DynamicConvolutionTransformerDecoder,
+    LightweightConvolution2DTransformerDecoder,
+    LightweightConvolutionTransformerDecoder,
+    TransformerDecoder,
 )
-from espnet2.asr.decoder.transformer_decoder import DynamicConvolutionTransformerDecoder
-from espnet2.asr.decoder.transformer_decoder import (
-    LightweightConvolution2DTransformerDecoder,  # noqa: H301
-)
-from espnet2.asr.decoder.transformer_decoder import (
-    LightweightConvolutionTransformerDecoder,  # noqa: H301
-)
-from espnet2.asr.decoder.transformer_decoder import TransformerDecoder
 from espnet2.asr.encoder.abs_encoder import AbsEncoder
 from espnet2.asr.encoder.conformer_encoder import ConformerEncoder
-from espnet2.asr.encoder.rnn_encoder import RNNEncoder
-from espnet2.asr.encoder.transformer_encoder import TransformerEncoder
 from espnet2.asr.encoder.contextual_block_transformer_encoder import (
-    ContextualBlockTransformerEncoder,  # noqa: H301
+    ContextualBlockTransformerEncoder,
 )
+from espnet2.asr.encoder.rnn_encoder import RNNEncoder
+from espnet2.asr.encoder.transformer_encoder import TransformerEncoder
 from espnet2.asr.encoder.vgg_rnn_encoder import VGGRNNEncoder
 from espnet2.asr.frontend.abs_frontend import AbsFrontend
 from espnet2.asr.postencoder.abs_postencoder import AbsPostEncoder
 from espnet2.asr.postencoder.hugging_face_transformers_postencoder import (
-    HuggingFaceTransformersPostEncoder,  # noqa: H301
+    HuggingFaceTransformersPostEncoder,
 )
 from espnet2.asr.preencoder.abs_preencoder import AbsPreEncoder
 from espnet2.asr.preencoder.linear import LinearProjection
@@ -52,9 +42,7 @@
 from espnet2.train.trainer import Trainer
 from espnet2.utils.get_default_kwargs import get_default_kwargs
 from espnet2.utils.nested_dict_action import NestedDictAction
-from espnet2.utils.types import int_or_none
-from espnet2.utils.types import str2bool
-from espnet2.utils.types import str_or_none
+from espnet2.utils.types import int_or_none, str2bool, str_or_none
 
 frontend_choices = ClassChoices(
     name="frontend",
diff --git a/espnet2/tasks/st.py b/espnet2/tasks/st.py
index 182a335cc56..666af8b1ef1 100644
--- a/espnet2/tasks/st.py
+++ b/espnet2/tasks/st.py
@@ -1,40 +1,32 @@
 import argparse
 import logging
-from typing import Callable
-from typing import Collection
-from typing import Dict
-from typing import List
-from typing import Optional
-from typing import Tuple
+from typing import Callable, Collection, Dict, List, Optional, Tuple
 
 import numpy as np
 import torch
-from typeguard import check_argument_types
-from typeguard import check_return_type
+from typeguard import check_argument_types, check_return_type
 
 from espnet2.asr.ctc import CTC
 from espnet2.asr.decoder.abs_decoder import AbsDecoder
 from espnet2.asr.decoder.rnn_decoder import RNNDecoder
 from espnet2.asr.decoder.transformer_decoder import (
-    DynamicConvolution2DTransformerDecoder,  # noqa: H301
+    DynamicConvolution2DTransformerDecoder,
+    DynamicConvolutionTransformerDecoder,
+    LightweightConvolution2DTransformerDecoder,
+    LightweightConvolutionTransformerDecoder,
+    TransformerDecoder,
 )
-from espnet2.asr.decoder.transformer_decoder import DynamicConvolutionTransformerDecoder
-from espnet2.asr.decoder.transformer_decoder import (
-    LightweightConvolution2DTransformerDecoder,  # noqa: H301
-)
-from espnet2.asr.decoder.transformer_decoder import (
-    LightweightConvolutionTransformerDecoder,  # noqa: H301
-)
-from espnet2.asr.decoder.transformer_decoder import TransformerDecoder
 from espnet2.asr.encoder.abs_encoder import AbsEncoder
 from espnet2.asr.encoder.conformer_encoder import ConformerEncoder
-from espnet2.asr.encoder.hubert_encoder import FairseqHubertEncoder
-from espnet2.asr.encoder.hubert_encoder import FairseqHubertPretrainEncoder
-from espnet2.asr.encoder.rnn_encoder import RNNEncoder
-from espnet2.asr.encoder.transformer_encoder import TransformerEncoder
 from espnet2.asr.encoder.contextual_block_transformer_encoder import (
-    ContextualBlockTransformerEncoder,  # noqa: H301
+    ContextualBlockTransformerEncoder,
+)
+from espnet2.asr.encoder.hubert_encoder import (
+    FairseqHubertEncoder,
+    FairseqHubertPretrainEncoder,
 )
+from espnet2.asr.encoder.rnn_encoder import RNNEncoder
+from espnet2.asr.encoder.transformer_encoder import TransformerEncoder
 from espnet2.asr.encoder.vgg_rnn_encoder import VGGRNNEncoder
 from espnet2.asr.encoder.wav2vec2_encoder import FairSeqWav2Vec2Encoder
 from espnet2.asr.frontend.abs_frontend import AbsFrontend
@@ -43,7 +35,7 @@
 from espnet2.asr.frontend.windowing import SlidingWindow
 from espnet2.asr.postencoder.abs_postencoder import AbsPostEncoder
 from espnet2.asr.postencoder.hugging_face_transformers_postencoder import (
-    HuggingFaceTransformersPostEncoder,  # noqa: H301
+    HuggingFaceTransformersPostEncoder,
 )
 from espnet2.asr.preencoder.abs_preencoder import AbsPreEncoder
 from espnet2.asr.preencoder.linear import LinearProjection
@@ -63,10 +55,7 @@
 from espnet2.train.trainer import Trainer
 from espnet2.utils.get_default_kwargs import get_default_kwargs
 from espnet2.utils.nested_dict_action import NestedDictAction
-from espnet2.utils.types import float_or_none
-from espnet2.utils.types import int_or_none
-from espnet2.utils.types import str2bool
-from espnet2.utils.types import str_or_none
+from espnet2.utils.types import float_or_none, int_or_none, str2bool, str_or_none
 
 frontend_choices = ClassChoices(
     name="frontend",
@@ -206,7 +195,7 @@ def add_task_arguments(cls, parser: argparse.ArgumentParser):
         # NOTE(kamo): add_arguments(..., required=True) can't be used
         # to provide --print_config mode. Instead of it, do as
         required = parser.get_default("required")
-        required += ["src_token_list", "token_list"]
+        required += ["token_list"]
 
         group.add_argument(
             "--token_list",
diff --git a/espnet2/tasks/tts.py b/espnet2/tasks/tts.py
index df21faf9365..36a73072f93 100644
--- a/espnet2/tasks/tts.py
+++ b/espnet2/tasks/tts.py
@@ -2,23 +2,15 @@
 
 import argparse
 import logging
-import yaml
-
 from pathlib import Path
-from typing import Callable
-from typing import Collection
-from typing import Dict
-from typing import List
-from typing import Optional
-from typing import Tuple
-from typing import Union
+from typing import Callable, Collection, Dict, List, Optional, Tuple, Union
 
 import numpy as np
 import torch
+import yaml
+from typeguard import check_argument_types, check_return_type
 
-from typeguard import check_argument_types
-from typeguard import check_return_type
-
+from espnet2.gan_tts.jets import JETS
 from espnet2.gan_tts.joint import JointText2Wav
 from espnet2.gan_tts.vits import VITS
 from espnet2.layers.abs_normalize import AbsNormalize
@@ -45,9 +37,7 @@
 from espnet2.utils.get_default_kwargs import get_default_kwargs
 from espnet2.utils.griffin_lim import Spectrogram2Waveform
 from espnet2.utils.nested_dict_action import NestedDictAction
-from espnet2.utils.types import int_or_none
-from espnet2.utils.types import str2bool
-from espnet2.utils.types import str_or_none
+from espnet2.utils.types import int_or_none, str2bool, str_or_none
 
 feats_extractor_choices = ClassChoices(
     "feats_extract",
@@ -104,6 +94,7 @@
         # NOTE(kan-bayashi): available only for inference
         vits=VITS,
         joint_text2wav=JointText2Wav,
+        jets=JETS,
     ),
     type_check=AbsTTS,
     default="tacotron2",
@@ -260,10 +251,25 @@ def optional_data_names(
         cls, train: bool = True, inference: bool = False
     ) -> Tuple[str, ...]:
         if not inference:
-            retval = ("spembs", "durations", "pitch", "energy", "sids", "lids")
+            retval = (
+                "spembs",
+                "durations",
+                "pitch",
+                "energy",
+                "sids",
+                "lids",
+            )
         else:
             # Inference mode
-            retval = ("spembs", "speech", "durations", "sids", "lids")
+            retval = (
+                "spembs",
+                "speech",
+                "durations",
+                "pitch",
+                "energy",
+                "sids",
+                "lids",
+            )
         return retval
 
     @classmethod
diff --git a/espnet2/text/abs_tokenizer.py b/espnet2/text/abs_tokenizer.py
index fc2ccb3c369..21d727d6153 100644
--- a/espnet2/text/abs_tokenizer.py
+++ b/espnet2/text/abs_tokenizer.py
@@ -1,7 +1,5 @@
-from abc import ABC
-from abc import abstractmethod
-from typing import Iterable
-from typing import List
+from abc import ABC, abstractmethod
+from typing import Iterable, List
 
 
 class AbsTokenizer(ABC):
diff --git a/espnet2/text/build_tokenizer.py b/espnet2/text/build_tokenizer.py
index 70c2b868b17..a69375b04c4 100644
--- a/espnet2/text/build_tokenizer.py
+++ b/espnet2/text/build_tokenizer.py
@@ -1,6 +1,5 @@
 from pathlib import Path
-from typing import Iterable
-from typing import Union
+from typing import Iterable, Union
 
 from typeguard import check_argument_types
 
diff --git a/espnet2/text/char_tokenizer.py b/espnet2/text/char_tokenizer.py
index 765f124cf20..2922b97afaa 100644
--- a/espnet2/text/char_tokenizer.py
+++ b/espnet2/text/char_tokenizer.py
@@ -1,8 +1,6 @@
-from pathlib import Path
-from typing import Iterable
-from typing import List
-from typing import Union
 import warnings
+from pathlib import Path
+from typing import Iterable, List, Union
 
 from typeguard import check_argument_types
 
diff --git a/espnet2/text/cleaner.py b/espnet2/text/cleaner.py
index 687ff6afd9c..5743a1993e6 100644
--- a/espnet2/text/cleaner.py
+++ b/espnet2/text/cleaner.py
@@ -1,7 +1,7 @@
 from typing import Collection
 
-from jaconv import jaconv
 import tacotron_cleaner.cleaners
+from jaconv import jaconv
 from typeguard import check_argument_types
 
 try:
diff --git a/espnet2/text/phoneme_tokenizer.py b/espnet2/text/phoneme_tokenizer.py
index e6791d1818c..dd3843aaa5b 100644
--- a/espnet2/text/phoneme_tokenizer.py
+++ b/espnet2/text/phoneme_tokenizer.py
@@ -1,11 +1,8 @@
 import logging
-from pathlib import Path
 import re
-from typing import Iterable
-from typing import List
-from typing import Optional
-from typing import Union
 import warnings
+from pathlib import Path
+from typing import Iterable, List, Optional, Union
 
 import g2p_en
 import jamo
@@ -13,7 +10,6 @@
 
 from espnet2.text.abs_tokenizer import AbsTokenizer
 
-
 g2p_choices = [
     None,
     "g2p_en",
@@ -61,9 +57,10 @@ def pyopenjtalk_g2p(text) -> List[str]:
 
 
 def pyopenjtalk_g2p_accent(text) -> List[str]:
-    import pyopenjtalk
     import re
 
+    import pyopenjtalk
+
     phones = []
     for labels in pyopenjtalk.run_frontend(text)[1]:
         p = re.findall(r"\-(.*?)\+.*?\/A:([0-9\-]+).*?\/F:.*?_([0-9]+)", labels)
@@ -73,9 +70,10 @@ def pyopenjtalk_g2p_accent(text) -> List[str]:
 
 
 def pyopenjtalk_g2p_accent_with_pause(text) -> List[str]:
-    import pyopenjtalk
     import re
 
+    import pyopenjtalk
+
     phones = []
     for labels in pyopenjtalk.run_frontend(text)[1]:
         if labels.split("-")[1].split("+")[0] == "pau":
@@ -181,27 +179,29 @@ def _numeric_feature_by_regex(regex, s):
 
 
 def pypinyin_g2p(text) -> List[str]:
-    from pypinyin import pinyin
-    from pypinyin import Style
+    from pypinyin import Style, pinyin
 
     phones = [phone[0] for phone in pinyin(text, style=Style.TONE3)]
     return phones
 
 
 def pypinyin_g2p_phone(text) -> List[str]:
-    from pypinyin import pinyin
-    from pypinyin import Style
-    from pypinyin.style._utils import get_finals
-    from pypinyin.style._utils import get_initials
+    from pypinyin import Style, pinyin
+    from pypinyin.style._utils import get_finals, get_initials
 
     phones = [
         p
         for phone in pinyin(text, style=Style.TONE3)
         for p in [
             get_initials(phone[0], strict=True),
-            get_finals(phone[0], strict=True),
+            get_finals(phone[0][:-1], strict=True) + phone[0][-1]
+            if phone[0][-1].isdigit()
+            else get_finals(phone[0], strict=True)
+            if phone[0][-1].isalnum()
+            else phone[0],
         ]
-        if len(p) != 0
+        # Remove the case of individual tones as a phoneme
+        if len(p) != 0 and not p.isdigit()
     ]
     return phones
 
diff --git a/espnet2/text/sentencepiece_tokenizer.py b/espnet2/text/sentencepiece_tokenizer.py
index 0db7110760c..5fcc2fe4cf2 100644
--- a/espnet2/text/sentencepiece_tokenizer.py
+++ b/espnet2/text/sentencepiece_tokenizer.py
@@ -1,7 +1,5 @@
 from pathlib import Path
-from typing import Iterable
-from typing import List
-from typing import Union
+from typing import Iterable, List, Union
 
 import sentencepiece as spm
 from typeguard import check_argument_types
diff --git a/espnet2/text/token_id_converter.py b/espnet2/text/token_id_converter.py
index c9a6b28638b..96bab4874f2 100644
--- a/espnet2/text/token_id_converter.py
+++ b/espnet2/text/token_id_converter.py
@@ -1,8 +1,5 @@
 from pathlib import Path
-from typing import Dict
-from typing import Iterable
-from typing import List
-from typing import Union
+from typing import Dict, Iterable, List, Union
 
 import numpy as np
 from typeguard import check_argument_types
diff --git a/espnet2/text/word_tokenizer.py b/espnet2/text/word_tokenizer.py
index 2788bc03e65..30873ef7297 100644
--- a/espnet2/text/word_tokenizer.py
+++ b/espnet2/text/word_tokenizer.py
@@ -1,8 +1,6 @@
-from pathlib import Path
-from typing import Iterable
-from typing import List
-from typing import Union
 import warnings
+from pathlib import Path
+from typing import Iterable, List, Union
 
 from typeguard import check_argument_types
 
diff --git a/espnet2/torch_utils/initialize.py b/espnet2/torch_utils/initialize.py
index 2c0e7a43579..038c7cfa4a7 100644
--- a/espnet2/torch_utils/initialize.py
+++ b/espnet2/torch_utils/initialize.py
@@ -3,6 +3,7 @@
 """Initialize modules for espnet2 neural networks."""
 
 import math
+
 import torch
 from typeguard import check_argument_types
 
diff --git a/espnet2/torch_utils/load_pretrained_model.py b/espnet2/torch_utils/load_pretrained_model.py
index 49c7bc6b558..4c7573b6be9 100644
--- a/espnet2/torch_utils/load_pretrained_model.py
+++ b/espnet2/torch_utils/load_pretrained_model.py
@@ -1,8 +1,6 @@
-from typing import Any
-from typing import Dict
-from typing import Union
-
 import logging
+from typing import Any, Dict, Union
+
 import torch
 import torch.nn
 import torch.optim
diff --git a/espnet2/train/abs_espnet_model.py b/espnet2/train/abs_espnet_model.py
index 6fd50603680..9a9a74348c1 100644
--- a/espnet2/train/abs_espnet_model.py
+++ b/espnet2/train/abs_espnet_model.py
@@ -1,7 +1,5 @@
-from abc import ABC
-from abc import abstractmethod
-from typing import Dict
-from typing import Tuple
+from abc import ABC, abstractmethod
+from typing import Dict, Tuple
 
 import torch
 
diff --git a/espnet2/train/abs_gan_espnet_model.py b/espnet2/train/abs_gan_espnet_model.py
index 6e78ecfdca4..323abb85410 100644
--- a/espnet2/train/abs_gan_espnet_model.py
+++ b/espnet2/train/abs_gan_espnet_model.py
@@ -3,10 +3,8 @@
 
 """ESPnetModel abstract class for GAN-based training."""
 
-from abc import ABC
-from abc import abstractmethod
-from typing import Dict
-from typing import Union
+from abc import ABC, abstractmethod
+from typing import Dict, Union
 
 import torch
 
diff --git a/espnet2/train/class_choices.py b/espnet2/train/class_choices.py
index 821bab8121b..412b33f8453 100644
--- a/espnet2/train/class_choices.py
+++ b/espnet2/train/class_choices.py
@@ -1,9 +1,6 @@
-from typing import Mapping
-from typing import Optional
-from typing import Tuple
+from typing import Mapping, Optional, Tuple
 
-from typeguard import check_argument_types
-from typeguard import check_return_type
+from typeguard import check_argument_types, check_return_type
 
 from espnet2.utils.nested_dict_action import NestedDictAction
 from espnet2.utils.types import str_or_none
diff --git a/espnet2/train/collate_fn.py b/espnet2/train/collate_fn.py
index a9a5bbb7792..cc4297a30c5 100644
--- a/espnet2/train/collate_fn.py
+++ b/espnet2/train/collate_fn.py
@@ -1,13 +1,8 @@
-from typing import Collection
-from typing import Dict
-from typing import List
-from typing import Tuple
-from typing import Union
+from typing import Collection, Dict, List, Tuple, Union
 
 import numpy as np
 import torch
-from typeguard import check_argument_types
-from typeguard import check_return_type
+from typeguard import check_argument_types, check_return_type
 
 from espnet.nets.pytorch_backend.nets_utils import pad_list
 
diff --git a/espnet2/train/dataset.py b/espnet2/train/dataset.py
index 0c47366e94a..c8d7d7f71fc 100644
--- a/espnet2/train/dataset.py
+++ b/espnet2/train/dataset.py
@@ -1,18 +1,11 @@
-from abc import ABC
-from abc import abstractmethod
 import collections
 import copy
 import functools
 import logging
 import numbers
 import re
-from typing import Any
-from typing import Callable
-from typing import Collection
-from typing import Dict
-from typing import Mapping
-from typing import Tuple
-from typing import Union
+from abc import ABC, abstractmethod
+from typing import Any, Callable, Collection, Dict, Mapping, Tuple, Union
 
 import h5py
 import humanfriendly
@@ -20,14 +13,14 @@
 import numpy as np
 import torch
 from torch.utils.data.dataset import Dataset
-from typeguard import check_argument_types
-from typeguard import check_return_type
+from typeguard import check_argument_types, check_return_type
 
 from espnet2.fileio.npy_scp import NpyScpReader
-from espnet2.fileio.rand_gen_dataset import FloatRandomGenerateDataset
-from espnet2.fileio.rand_gen_dataset import IntRandomGenerateDataset
-from espnet2.fileio.read_text import load_num_sequence_text
-from espnet2.fileio.read_text import read_2column_text
+from espnet2.fileio.rand_gen_dataset import (
+    FloatRandomGenerateDataset,
+    IntRandomGenerateDataset,
+)
+from espnet2.fileio.read_text import load_num_sequence_text, read_2column_text
 from espnet2.fileio.rttm import RttmReader
 from espnet2.fileio.sound_scp import SoundScpReader
 from espnet2.utils.sized_dict import SizedDict
diff --git a/espnet2/train/gan_trainer.py b/espnet2/train/gan_trainer.py
index 0d3cc59bea0..193ffa41d64 100644
--- a/espnet2/train/gan_trainer.py
+++ b/espnet2/train/gan_trainer.py
@@ -7,37 +7,27 @@
 import dataclasses
 import logging
 import time
-
 from contextlib import contextmanager
-from distutils.version import LooseVersion
-from typing import Dict
-from typing import Iterable
-from typing import List
-from typing import Optional
-from typing import Sequence
-from typing import Tuple
+from typing import Dict, Iterable, List, Optional, Sequence, Tuple
 
 import torch
-
+from packaging.version import parse as V
 from typeguard import check_argument_types
 
-from espnet2.schedulers.abs_scheduler import AbsBatchStepScheduler
-from espnet2.schedulers.abs_scheduler import AbsScheduler
+from espnet2.schedulers.abs_scheduler import AbsBatchStepScheduler, AbsScheduler
 from espnet2.torch_utils.device_funcs import to_device
 from espnet2.torch_utils.recursive_op import recursive_average
 from espnet2.train.distributed_utils import DistributedOption
 from espnet2.train.reporter import SubReporter
-from espnet2.train.trainer import Trainer
-from espnet2.train.trainer import TrainerOptions
+from espnet2.train.trainer import Trainer, TrainerOptions
 from espnet2.utils.build_dataclass import build_dataclass
 from espnet2.utils.types import str2bool
 
 if torch.distributed.is_available():
     from torch.distributed import ReduceOp
 
-if LooseVersion(torch.__version__) >= LooseVersion("1.6.0"):
-    from torch.cuda.amp import autocast
-    from torch.cuda.amp import GradScaler
+if V(torch.__version__) >= V("1.6.0"):
+    from torch.cuda.amp import GradScaler, autocast
 else:
     # Nothing to do if torch<1.6.0
     @contextmanager
diff --git a/espnet2/train/iterable_dataset.py b/espnet2/train/iterable_dataset.py
index ccf606726f3..7133d749b14 100644
--- a/espnet2/train/iterable_dataset.py
+++ b/espnet2/train/iterable_dataset.py
@@ -2,12 +2,7 @@
 import copy
 from io import StringIO
 from pathlib import Path
-from typing import Callable
-from typing import Collection
-from typing import Dict
-from typing import Iterator
-from typing import Tuple
-from typing import Union
+from typing import Callable, Collection, Dict, Iterator, Tuple, Union
 
 import kaldiio
 import numpy as np
diff --git a/espnet2/train/preprocessor.py b/espnet2/train/preprocessor.py
index bdf1c6437e8..0d841b2fd74 100644
--- a/espnet2/train/preprocessor.py
+++ b/espnet2/train/preprocessor.py
@@ -1,17 +1,11 @@
-from abc import ABC
-from abc import abstractmethod
+from abc import ABC, abstractmethod
 from pathlib import Path
-from typing import Collection
-from typing import Dict
-from typing import Iterable
-from typing import List
-from typing import Union
+from typing import Collection, Dict, Iterable, List, Union
 
 import numpy as np
 import scipy.signal
 import soundfile
-from typeguard import check_argument_types
-from typeguard import check_return_type
+from typeguard import check_argument_types, check_return_type
 
 from espnet2.text.build_tokenizer import build_tokenizer
 from espnet2.text.cleaner import TextCleaner
diff --git a/espnet2/train/reporter.py b/espnet2/train/reporter.py
index a3c03995b54..20865bc81e6 100644
--- a/espnet2/train/reporter.py
+++ b/espnet2/train/reporter.py
@@ -1,27 +1,19 @@
 """Reporter module."""
-from collections import defaultdict
-from contextlib import contextmanager
 import dataclasses
 import datetime
-from distutils.version import LooseVersion
 import logging
-from pathlib import Path
 import time
-from typing import ContextManager
-from typing import Dict
-from typing import List
-from typing import Optional
-from typing import Sequence
-from typing import Tuple
-from typing import Union
 import warnings
+from collections import defaultdict
+from contextlib import contextmanager
+from pathlib import Path
+from typing import ContextManager, Dict, List, Optional, Sequence, Tuple, Union
 
 import humanfriendly
 import numpy as np
 import torch
-from typeguard import check_argument_types
-from typeguard import check_return_type
-
+from packaging.version import parse as V
+from typeguard import check_argument_types, check_return_type
 
 Num = Union[float, int, complex, torch.Tensor, np.ndarray]
 
@@ -357,7 +349,7 @@ def finish_epoch(self, sub_reporter: SubReporter) -> None:
             seconds=time.perf_counter() - sub_reporter.start_time
         )
         stats["total_count"] = sub_reporter.total_count
-        if LooseVersion(torch.__version__) >= LooseVersion("1.4.0"):
+        if V(torch.__version__) >= V("1.4.0"):
             if torch.cuda.is_initialized():
                 stats["gpu_max_cached_mem_GB"] = (
                     torch.cuda.max_memory_reserved() / 2**30
diff --git a/espnet2/train/trainer.py b/espnet2/train/trainer.py
index 304d3329264..266e0ee0358 100644
--- a/espnet2/train/trainer.py
+++ b/espnet2/train/trainer.py
@@ -1,50 +1,44 @@
 """Trainer module."""
 import argparse
-from contextlib import contextmanager
 import dataclasses
-from dataclasses import is_dataclass
-from distutils.version import LooseVersion
 import logging
-from pathlib import Path
 import time
-from typing import Dict
-from typing import Iterable
-from typing import List
-from typing import Optional
-from typing import Sequence
-from typing import Tuple
-from typing import Union
+from contextlib import contextmanager
+from dataclasses import is_dataclass
+from pathlib import Path
+from typing import Dict, Iterable, List, Optional, Sequence, Tuple, Union
 
 import humanfriendly
 import numpy as np
 import torch
 import torch.nn
 import torch.optim
+from packaging.version import parse as V
 from typeguard import check_argument_types
 
 from espnet2.iterators.abs_iter_factory import AbsIterFactory
 from espnet2.main_funcs.average_nbest_models import average_nbest_models
 from espnet2.main_funcs.calculate_all_attentions import calculate_all_attentions
-from espnet2.schedulers.abs_scheduler import AbsBatchStepScheduler
-from espnet2.schedulers.abs_scheduler import AbsEpochStepScheduler
-from espnet2.schedulers.abs_scheduler import AbsScheduler
-from espnet2.schedulers.abs_scheduler import AbsValEpochStepScheduler
+from espnet2.schedulers.abs_scheduler import (
+    AbsBatchStepScheduler,
+    AbsEpochStepScheduler,
+    AbsScheduler,
+    AbsValEpochStepScheduler,
+)
 from espnet2.torch_utils.add_gradient_noise import add_gradient_noise
 from espnet2.torch_utils.device_funcs import to_device
 from espnet2.torch_utils.recursive_op import recursive_average
 from espnet2.torch_utils.set_all_random_seed import set_all_random_seed
 from espnet2.train.abs_espnet_model import AbsESPnetModel
 from espnet2.train.distributed_utils import DistributedOption
-from espnet2.train.reporter import Reporter
-from espnet2.train.reporter import SubReporter
+from espnet2.train.reporter import Reporter, SubReporter
 from espnet2.utils.build_dataclass import build_dataclass
 
 if torch.distributed.is_available():
     from torch.distributed import ReduceOp
 
-if LooseVersion(torch.__version__) >= LooseVersion("1.6.0"):
-    from torch.cuda.amp import autocast
-    from torch.cuda.amp import GradScaler
+if V(torch.__version__) >= V("1.6.0"):
+    from torch.cuda.amp import GradScaler, autocast
 else:
     # Nothing to do if torch<1.6.0
     @contextmanager
@@ -183,7 +177,7 @@ def run(
         output_dir = Path(trainer_options.output_dir)
         reporter = Reporter()
         if trainer_options.use_amp:
-            if LooseVersion(torch.__version__) < LooseVersion("1.6.0"):
+            if V(torch.__version__) < V("1.6.0"):
                 raise RuntimeError(
                     "Require torch>=1.6.0 for  Automatic Mixed Precision"
                 )
diff --git a/espnet2/tts/abs_tts.py b/espnet2/tts/abs_tts.py
index 08eab189ad8..c1da2478b26 100644
--- a/espnet2/tts/abs_tts.py
+++ b/espnet2/tts/abs_tts.py
@@ -3,10 +3,8 @@
 
 """Text-to-speech abstrast class."""
 
-from abc import ABC
-from abc import abstractmethod
-from typing import Dict
-from typing import Tuple
+from abc import ABC, abstractmethod
+from typing import Dict, Tuple
 
 import torch
 
diff --git a/espnet2/tts/espnet_model.py b/espnet2/tts/espnet_model.py
index e09c4a35a55..ee41d6e4c72 100644
--- a/espnet2/tts/espnet_model.py
+++ b/espnet2/tts/espnet_model.py
@@ -4,13 +4,10 @@
 """Text-to-speech ESPnet model."""
 
 from contextlib import contextmanager
-from distutils.version import LooseVersion
-from typing import Dict
-from typing import Optional
-from typing import Tuple
+from typing import Dict, Optional, Tuple
 
 import torch
-
+from packaging.version import parse as V
 from typeguard import check_argument_types
 
 from espnet2.layers.abs_normalize import AbsNormalize
@@ -19,7 +16,7 @@
 from espnet2.tts.abs_tts import AbsTTS
 from espnet2.tts.feats_extract.abs_feats_extract import AbsFeatsExtract
 
-if LooseVersion(torch.__version__) >= LooseVersion("1.6.0"):
+if V(torch.__version__) >= V("1.6.0"):
     from torch.cuda.amp import autocast
 else:
     # Nothing to do if torch<1.6.0
diff --git a/espnet2/tts/fastspeech/fastspeech.py b/espnet2/tts/fastspeech/fastspeech.py
index 481b86976fa..12e7ead6187 100644
--- a/espnet2/tts/fastspeech/fastspeech.py
+++ b/espnet2/tts/fastspeech/fastspeech.py
@@ -4,39 +4,32 @@
 """Fastspeech related modules for ESPnet2."""
 
 import logging
-
-from typing import Dict
-from typing import Optional
-from typing import Sequence
-from typing import Tuple
+from typing import Dict, Optional, Sequence, Tuple
 
 import torch
 import torch.nn.functional as F
-
 from typeguard import check_argument_types
 
-from espnet.nets.pytorch_backend.conformer.encoder import (
-    Encoder as ConformerEncoder,  # noqa: H301
-)
+from espnet2.torch_utils.device_funcs import force_gatherable
+from espnet2.torch_utils.initialize import initialize
+from espnet2.tts.abs_tts import AbsTTS
+from espnet2.tts.gst.style_encoder import StyleEncoder
+from espnet.nets.pytorch_backend.conformer.encoder import Encoder as ConformerEncoder
 from espnet.nets.pytorch_backend.e2e_tts_fastspeech import (
-    FeedForwardTransformerLoss as FastSpeechLoss,  # NOQA
+    FeedForwardTransformerLoss as FastSpeechLoss,
 )
 from espnet.nets.pytorch_backend.fastspeech.duration_predictor import DurationPredictor
 from espnet.nets.pytorch_backend.fastspeech.length_regulator import LengthRegulator
-from espnet.nets.pytorch_backend.nets_utils import make_non_pad_mask
-from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
+from espnet.nets.pytorch_backend.nets_utils import make_non_pad_mask, make_pad_mask
 from espnet.nets.pytorch_backend.tacotron2.decoder import Postnet
-from espnet.nets.pytorch_backend.transformer.embedding import PositionalEncoding
-from espnet.nets.pytorch_backend.transformer.embedding import ScaledPositionalEncoding
+from espnet.nets.pytorch_backend.transformer.embedding import (
+    PositionalEncoding,
+    ScaledPositionalEncoding,
+)
 from espnet.nets.pytorch_backend.transformer.encoder import (
-    Encoder as TransformerEncoder,  # noqa: H301
+    Encoder as TransformerEncoder,
 )
 
-from espnet2.torch_utils.device_funcs import force_gatherable
-from espnet2.torch_utils.initialize import initialize
-from espnet2.tts.abs_tts import AbsTTS
-from espnet2.tts.gst.style_encoder import StyleEncoder
-
 
 class FastSpeech(AbsTTS):
     """FastSpeech module for end-to-end text-to-speech.
diff --git a/espnet2/tts/fastspeech2/fastspeech2.py b/espnet2/tts/fastspeech2/fastspeech2.py
index 06d3b0c6c5f..3ebc1858d11 100644
--- a/espnet2/tts/fastspeech2/fastspeech2.py
+++ b/espnet2/tts/fastspeech2/fastspeech2.py
@@ -4,37 +4,30 @@
 """Fastspeech2 related modules for ESPnet2."""
 
 import logging
-
-from typing import Dict
-from typing import Optional
-from typing import Sequence
-from typing import Tuple
+from typing import Dict, Optional, Sequence, Tuple
 
 import torch
 import torch.nn.functional as F
-
 from typeguard import check_argument_types
 
-from espnet.nets.pytorch_backend.conformer.encoder import (
-    Encoder as ConformerEncoder,  # noqa: H301
-)
-from espnet.nets.pytorch_backend.fastspeech.duration_predictor import DurationPredictor
-from espnet.nets.pytorch_backend.fastspeech.length_regulator import LengthRegulator
-from espnet.nets.pytorch_backend.nets_utils import make_non_pad_mask
-from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
-from espnet.nets.pytorch_backend.tacotron2.decoder import Postnet
-from espnet.nets.pytorch_backend.transformer.embedding import PositionalEncoding
-from espnet.nets.pytorch_backend.transformer.embedding import ScaledPositionalEncoding
-from espnet.nets.pytorch_backend.transformer.encoder import (
-    Encoder as TransformerEncoder,  # noqa: H301
-)
-
 from espnet2.torch_utils.device_funcs import force_gatherable
 from espnet2.torch_utils.initialize import initialize
 from espnet2.tts.abs_tts import AbsTTS
 from espnet2.tts.fastspeech2.loss import FastSpeech2Loss
 from espnet2.tts.fastspeech2.variance_predictor import VariancePredictor
 from espnet2.tts.gst.style_encoder import StyleEncoder
+from espnet.nets.pytorch_backend.conformer.encoder import Encoder as ConformerEncoder
+from espnet.nets.pytorch_backend.fastspeech.duration_predictor import DurationPredictor
+from espnet.nets.pytorch_backend.fastspeech.length_regulator import LengthRegulator
+from espnet.nets.pytorch_backend.nets_utils import make_non_pad_mask, make_pad_mask
+from espnet.nets.pytorch_backend.tacotron2.decoder import Postnet
+from espnet.nets.pytorch_backend.transformer.embedding import (
+    PositionalEncoding,
+    ScaledPositionalEncoding,
+)
+from espnet.nets.pytorch_backend.transformer.encoder import (
+    Encoder as TransformerEncoder,
+)
 
 
 class FastSpeech2(AbsTTS):
diff --git a/espnet2/tts/fastspeech2/loss.py b/espnet2/tts/fastspeech2/loss.py
index 086b856831a..167ea7cd295 100644
--- a/espnet2/tts/fastspeech2/loss.py
+++ b/espnet2/tts/fastspeech2/loss.py
@@ -6,11 +6,10 @@
 from typing import Tuple
 
 import torch
-
 from typeguard import check_argument_types
 
-from espnet.nets.pytorch_backend.fastspeech.duration_predictor import (
-    DurationPredictorLoss,  # noqa: H301
+from espnet.nets.pytorch_backend.fastspeech.duration_predictor import (  # noqa: H301
+    DurationPredictorLoss,
 )
 from espnet.nets.pytorch_backend.nets_utils import make_non_pad_mask
 
diff --git a/espnet2/tts/fastspeech2/variance_predictor.py b/espnet2/tts/fastspeech2/variance_predictor.py
index e948c17e0e7..aba9a64576d 100644
--- a/espnet2/tts/fastspeech2/variance_predictor.py
+++ b/espnet2/tts/fastspeech2/variance_predictor.py
@@ -6,7 +6,6 @@
 """Variance predictor related modules."""
 
 import torch
-
 from typeguard import check_argument_types
 
 from espnet.nets.pytorch_backend.transformer.layer_norm import LayerNorm
diff --git a/espnet2/tts/feats_extract/abs_feats_extract.py b/espnet2/tts/feats_extract/abs_feats_extract.py
index c4a459e5be7..48a2e351307 100644
--- a/espnet2/tts/feats_extract/abs_feats_extract.py
+++ b/espnet2/tts/feats_extract/abs_feats_extract.py
@@ -1,10 +1,7 @@
-from abc import ABC
-from abc import abstractmethod
-from typing import Any
-from typing import Dict
+from abc import ABC, abstractmethod
+from typing import Any, Dict, Tuple
 
 import torch
-from typing import Tuple
 
 
 class AbsFeatsExtract(torch.nn.Module, ABC):
diff --git a/espnet2/tts/feats_extract/dio.py b/espnet2/tts/feats_extract/dio.py
index 43b5dfae306..4e2974e0a45 100644
--- a/espnet2/tts/feats_extract/dio.py
+++ b/espnet2/tts/feats_extract/dio.py
@@ -4,23 +4,18 @@
 """F0 extractor using DIO + Stonemask algorithm."""
 
 import logging
-
-from typing import Any
-from typing import Dict
-from typing import Tuple
-from typing import Union
+from typing import Any, Dict, Tuple, Union
 
 import humanfriendly
 import numpy as np
 import pyworld
 import torch
 import torch.nn.functional as F
-
 from scipy.interpolate import interp1d
 from typeguard import check_argument_types
 
-from espnet.nets.pytorch_backend.nets_utils import pad_list
 from espnet2.tts.feats_extract.abs_feats_extract import AbsFeatsExtract
+from espnet.nets.pytorch_backend.nets_utils import pad_list
 
 
 class Dio(AbsFeatsExtract):
diff --git a/espnet2/tts/feats_extract/energy.py b/espnet2/tts/feats_extract/energy.py
index d80f3af53b5..c7f9e0fcc14 100644
--- a/espnet2/tts/feats_extract/energy.py
+++ b/espnet2/tts/feats_extract/energy.py
@@ -3,20 +3,16 @@
 
 """Energy extractor."""
 
-from typing import Any
-from typing import Dict
-from typing import Tuple
-from typing import Union
+from typing import Any, Dict, Tuple, Union
 
 import humanfriendly
 import torch
 import torch.nn.functional as F
-
 from typeguard import check_argument_types
 
-from espnet.nets.pytorch_backend.nets_utils import pad_list
 from espnet2.layers.stft import Stft
 from espnet2.tts.feats_extract.abs_feats_extract import AbsFeatsExtract
+from espnet.nets.pytorch_backend.nets_utils import pad_list
 
 
 class Energy(AbsFeatsExtract):
diff --git a/espnet2/tts/feats_extract/linear_spectrogram.py b/espnet2/tts/feats_extract/linear_spectrogram.py
index d8f05d116a0..e8b1a6c0411 100644
--- a/espnet2/tts/feats_extract/linear_spectrogram.py
+++ b/espnet2/tts/feats_extract/linear_spectrogram.py
@@ -1,7 +1,4 @@
-from typing import Any
-from typing import Dict
-from typing import Optional
-from typing import Tuple
+from typing import Any, Dict, Optional, Tuple
 
 import torch
 from typeguard import check_argument_types
diff --git a/espnet2/tts/feats_extract/log_mel_fbank.py b/espnet2/tts/feats_extract/log_mel_fbank.py
index 2073c8cecc3..b05424713e5 100644
--- a/espnet2/tts/feats_extract/log_mel_fbank.py
+++ b/espnet2/tts/feats_extract/log_mel_fbank.py
@@ -1,8 +1,4 @@
-from typing import Any
-from typing import Dict
-from typing import Optional
-from typing import Tuple
-from typing import Union
+from typing import Any, Dict, Optional, Tuple, Union
 
 import humanfriendly
 import torch
diff --git a/espnet2/tts/feats_extract/log_spectrogram.py b/espnet2/tts/feats_extract/log_spectrogram.py
index fa00ea435f1..f436d6e04fe 100644
--- a/espnet2/tts/feats_extract/log_spectrogram.py
+++ b/espnet2/tts/feats_extract/log_spectrogram.py
@@ -1,7 +1,4 @@
-from typing import Any
-from typing import Dict
-from typing import Optional
-from typing import Tuple
+from typing import Any, Dict, Optional, Tuple
 
 import torch
 from typeguard import check_argument_types
diff --git a/espnet2/tts/gst/style_encoder.py b/espnet2/tts/gst/style_encoder.py
index 9fcdd9c52cd..93f8f66ced8 100644
--- a/espnet2/tts/gst/style_encoder.py
+++ b/espnet2/tts/gst/style_encoder.py
@@ -3,13 +3,13 @@
 
 """Style encoder of GST-Tacotron."""
 
-from typeguard import check_argument_types
 from typing import Sequence
 
 import torch
+from typeguard import check_argument_types
 
 from espnet.nets.pytorch_backend.transformer.attention import (
-    MultiHeadedAttention as BaseMultiHeadedAttention,  # NOQA
+    MultiHeadedAttention as BaseMultiHeadedAttention,
 )
 
 
diff --git a/espnet2/tts/tacotron2/tacotron2.py b/espnet2/tts/tacotron2/tacotron2.py
index a178b9079fd..22a64ce6f32 100644
--- a/espnet2/tts/tacotron2/tacotron2.py
+++ b/espnet2/tts/tacotron2/tacotron2.py
@@ -4,28 +4,23 @@
 """Tacotron 2 related modules for ESPnet2."""
 
 import logging
-
-from typing import Dict
-from typing import Optional
-from typing import Sequence
-from typing import Tuple
+from typing import Dict, Optional, Sequence, Tuple
 
 import torch
 import torch.nn.functional as F
-
 from typeguard import check_argument_types
 
-from espnet.nets.pytorch_backend.e2e_tts_tacotron2 import GuidedAttentionLoss
-from espnet.nets.pytorch_backend.e2e_tts_tacotron2 import Tacotron2Loss
-from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
-from espnet.nets.pytorch_backend.rnn.attentions import AttForward
-from espnet.nets.pytorch_backend.rnn.attentions import AttForwardTA
-from espnet.nets.pytorch_backend.rnn.attentions import AttLoc
-from espnet.nets.pytorch_backend.tacotron2.decoder import Decoder
-from espnet.nets.pytorch_backend.tacotron2.encoder import Encoder
 from espnet2.torch_utils.device_funcs import force_gatherable
 from espnet2.tts.abs_tts import AbsTTS
 from espnet2.tts.gst.style_encoder import StyleEncoder
+from espnet.nets.pytorch_backend.e2e_tts_tacotron2 import (
+    GuidedAttentionLoss,
+    Tacotron2Loss,
+)
+from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
+from espnet.nets.pytorch_backend.rnn.attentions import AttForward, AttForwardTA, AttLoc
+from espnet.nets.pytorch_backend.tacotron2.decoder import Decoder
+from espnet.nets.pytorch_backend.tacotron2.encoder import Encoder
 
 
 class Tacotron2(AbsTTS):
diff --git a/espnet2/tts/transformer/transformer.py b/espnet2/tts/transformer/transformer.py
index f6d1f13cdb1..aa0c8ae6057 100644
--- a/espnet2/tts/transformer/transformer.py
+++ b/espnet2/tts/transformer/transformer.py
@@ -3,33 +3,32 @@
 
 """Transformer-TTS related modules."""
 
-from typing import Dict
-from typing import Optional
-from typing import Sequence
-from typing import Tuple
+from typing import Dict, Optional, Sequence, Tuple
 
 import torch
 import torch.nn.functional as F
-
 from typeguard import check_argument_types
 
-from espnet.nets.pytorch_backend.e2e_tts_transformer import GuidedMultiHeadAttentionLoss
-from espnet.nets.pytorch_backend.e2e_tts_transformer import TransformerLoss
-from espnet.nets.pytorch_backend.nets_utils import make_non_pad_mask
-from espnet.nets.pytorch_backend.nets_utils import make_pad_mask
+from espnet2.torch_utils.device_funcs import force_gatherable
+from espnet2.torch_utils.initialize import initialize
+from espnet2.tts.abs_tts import AbsTTS
+from espnet2.tts.gst.style_encoder import StyleEncoder
+from espnet.nets.pytorch_backend.e2e_tts_transformer import (
+    GuidedMultiHeadAttentionLoss,
+    TransformerLoss,
+)
+from espnet.nets.pytorch_backend.nets_utils import make_non_pad_mask, make_pad_mask
 from espnet.nets.pytorch_backend.tacotron2.decoder import Postnet
 from espnet.nets.pytorch_backend.tacotron2.decoder import Prenet as DecoderPrenet
 from espnet.nets.pytorch_backend.tacotron2.encoder import Encoder as EncoderPrenet
 from espnet.nets.pytorch_backend.transformer.attention import MultiHeadedAttention
 from espnet.nets.pytorch_backend.transformer.decoder import Decoder
-from espnet.nets.pytorch_backend.transformer.embedding import PositionalEncoding
-from espnet.nets.pytorch_backend.transformer.embedding import ScaledPositionalEncoding
+from espnet.nets.pytorch_backend.transformer.embedding import (
+    PositionalEncoding,
+    ScaledPositionalEncoding,
+)
 from espnet.nets.pytorch_backend.transformer.encoder import Encoder
 from espnet.nets.pytorch_backend.transformer.mask import subsequent_mask
-from espnet2.torch_utils.device_funcs import force_gatherable
-from espnet2.torch_utils.initialize import initialize
-from espnet2.tts.abs_tts import AbsTTS
-from espnet2.tts.gst.style_encoder import StyleEncoder
 
 
 class Transformer(AbsTTS):
diff --git a/espnet2/tts/utils/__init__.py b/espnet2/tts/utils/__init__.py
index 0b512d822e8..0f910d76140 100644
--- a/espnet2/tts/utils/__init__.py
+++ b/espnet2/tts/utils/__init__.py
@@ -1,4 +1,6 @@
-from espnet2.tts.utils.duration_calculator import DurationCalculator  # NOQA
-from espnet2.tts.utils.parallel_wavegan_pretrained_vocoder import (  # NOQA
-    ParallelWaveGANPretrainedVocoder,  # NOQA
+from espnet2.tts.utils.duration_calculator import DurationCalculator
+from espnet2.tts.utils.parallel_wavegan_pretrained_vocoder import (
+    ParallelWaveGANPretrainedVocoder,
 )
+
+__all__ = ["DurationCalculator", "ParallelWaveGANPretrainedVocoder"]
diff --git a/espnet2/tts/utils/parallel_wavegan_pretrained_vocoder.py b/espnet2/tts/utils/parallel_wavegan_pretrained_vocoder.py
index 5ac5c48cda8..4019c7943d7 100644
--- a/espnet2/tts/utils/parallel_wavegan_pretrained_vocoder.py
+++ b/espnet2/tts/utils/parallel_wavegan_pretrained_vocoder.py
@@ -5,14 +5,11 @@
 
 import logging
 import os
-
 from pathlib import Path
-from typing import Optional
-from typing import Union
-
-import yaml
+from typing import Optional, Union
 
 import torch
+import yaml
 
 
 class ParallelWaveGANPretrainedVocoder(torch.nn.Module):
diff --git a/espnet2/utils/griffin_lim.py b/espnet2/utils/griffin_lim.py
index c1536d51b2b..ab7c9097e49 100644
--- a/espnet2/utils/griffin_lim.py
+++ b/espnet2/utils/griffin_lim.py
@@ -6,15 +6,14 @@
 #  Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
 
 import logging
-
-from distutils.version import LooseVersion
 from functools import partial
-from typeguard import check_argument_types
 from typing import Optional
 
 import librosa
 import numpy as np
 import torch
+from packaging.version import parse as V
+from typeguard import check_argument_types
 
 EPS = 1e-10
 
@@ -77,7 +76,7 @@ def griffin_lim(
     # assert the size of input linear spectrogram
     assert spc.shape[1] == n_fft // 2 + 1
 
-    if LooseVersion(librosa.__version__) >= LooseVersion("0.7.0"):
+    if V(librosa.__version__) >= V("0.7.0"):
         # use librosa's fast Grriffin-Lim algorithm
         spc = np.abs(spc.T)
         y = librosa.griffinlim(
diff --git a/espnet2/utils/types.py b/espnet2/utils/types.py
index 6b36f9c4b87..4d6ec7c3f42 100644
--- a/espnet2/utils/types.py
+++ b/espnet2/utils/types.py
@@ -1,7 +1,5 @@
 from distutils.util import strtobool
-from typing import Optional
-from typing import Tuple
-from typing import Union
+from typing import Optional, Tuple, Union
 
 import humanfriendly
 
diff --git a/setup.cfg b/setup.cfg
index a032ac70480..5b982d2fc93 100644
--- a/setup.cfg
+++ b/setup.cfg
@@ -2,7 +2,7 @@
 test=pytest
 
 [tool:pytest]
-addopts = --cov-config=.coveragerc --verbose --durations=0 --cov=espnet --cov=espnet2
+addopts = --cov-config=.coveragerc --cov=espnet --cov=espnet2
 testpaths = test
 execution_timeout = 2.0
 
@@ -10,14 +10,18 @@ execution_timeout = 2.0
 # [H238] old style class declaration, use new style (inherit from `object`)
 # [H102 H103] Newly contributed Source Code should be licensed under the Apache 2.0 license. All source files should have the following header::
 # [W504] Line break occurred after a binary operator
+# [H301] one import per line
+# [H306] imports not in alphabetical order
 
 # Black says "W503, E203 is incompatible with PEP 8"
 # [W503] Line break occurred before a binary operator
 # [E203] whitespace before :
 
 [flake8]
-ignore = H102,H103,W503,H238,E203
+ignore = H102,H103,W503,H238,E203,H301,H306
 max-line-length = 88
 [pycodestyle]
-ignore = H102,H103,W503,H238,E203
+ignore = H102,H103,W503,H238,E203,H301,H306
 max-line-length = 88
+[isort]
+profile = black
diff --git a/setup.py b/setup.py
index 671868219ed..a0ed245dd25 100644
--- a/setup.py
+++ b/setup.py
@@ -4,14 +4,12 @@
 
 import os
 
-from distutils.version import LooseVersion
-from setuptools import find_packages
-from setuptools import setup
-
+from setuptools import find_packages, setup
 
 requirements = {
     "install": [
         "setuptools>=38.5.1",
+        "packaging",
         "configargparse>=1.2.1",
         "typeguard>=2.7.0",
         "humanfriendly",
@@ -90,6 +88,7 @@
         "flake8>=3.7.8",
         "flake8-docstrings>=1.3.1",
         "black",
+        "isort",
     ],
     "doc": [
         "Jinja2<3.1",
@@ -141,6 +140,7 @@
         "Programming Language :: Python :: 3.7",
         "Programming Language :: Python :: 3.8",
         "Programming Language :: Python :: 3.9",
+        "Programming Language :: Python :: 3.10",
         "Development Status :: 5 - Production/Stable",
         "Intended Audience :: Science/Research",
         "Operating System :: POSIX :: Linux",
diff --git a/test/espnet2/asr/decoder/test_rnn_decoder.py b/test/espnet2/asr/decoder/test_rnn_decoder.py
index aa07c88b079..8df889e6bdd 100644
--- a/test/espnet2/asr/decoder/test_rnn_decoder.py
+++ b/test/espnet2/asr/decoder/test_rnn_decoder.py
@@ -1,8 +1,8 @@
 import pytest
 import torch
 
-from espnet.nets.beam_search import BeamSearch
 from espnet2.asr.decoder.rnn_decoder import RNNDecoder
+from espnet.nets.beam_search import BeamSearch
 
 
 @pytest.mark.parametrize("context_residual", [True, False])
diff --git a/test/espnet2/asr/decoder/test_transformer_decoder.py b/test/espnet2/asr/decoder/test_transformer_decoder.py
index d01c5b07a64..ee0491b7d9b 100644
--- a/test/espnet2/asr/decoder/test_transformer_decoder.py
+++ b/test/espnet2/asr/decoder/test_transformer_decoder.py
@@ -1,22 +1,18 @@
 import pytest
 import torch
 
+from espnet2.asr.ctc import CTC
+from espnet2.asr.decoder.transformer_decoder import (  # noqa: H301
+    DynamicConvolution2DTransformerDecoder,
+    DynamicConvolutionTransformerDecoder,
+    LightweightConvolution2DTransformerDecoder,
+    LightweightConvolutionTransformerDecoder,
+    TransformerDecoder,
+)
 from espnet.nets.batch_beam_search import BatchBeamSearch
 from espnet.nets.batch_beam_search_online_sim import BatchBeamSearchOnlineSim
 from espnet.nets.beam_search import BeamSearch
 from espnet.nets.scorers.ctc import CTCPrefixScorer
-from espnet2.asr.ctc import CTC
-from espnet2.asr.decoder.transformer_decoder import (
-    DynamicConvolution2DTransformerDecoder,  # noqa: H301
-)
-from espnet2.asr.decoder.transformer_decoder import DynamicConvolutionTransformerDecoder
-from espnet2.asr.decoder.transformer_decoder import (
-    LightweightConvolution2DTransformerDecoder,  # noqa: H301
-)
-from espnet2.asr.decoder.transformer_decoder import (
-    LightweightConvolutionTransformerDecoder,  # noqa: H301
-)
-from espnet2.asr.decoder.transformer_decoder import TransformerDecoder
 
 
 @pytest.mark.parametrize("input_layer", ["linear", "embed"])
diff --git a/test/espnet2/asr/encoder/test_contextual_block_transformer_encoder.py b/test/espnet2/asr/encoder/test_contextual_block_transformer_encoder.py
index b440e38b296..d7ff7de642d 100644
--- a/test/espnet2/asr/encoder/test_contextual_block_transformer_encoder.py
+++ b/test/espnet2/asr/encoder/test_contextual_block_transformer_encoder.py
@@ -1,8 +1,8 @@
 import pytest
 import torch
 
-from espnet2.asr.encoder.contextual_block_transformer_encoder import (
-    ContextualBlockTransformerEncoder,  # noqa: H301
+from espnet2.asr.encoder.contextual_block_transformer_encoder import (  # noqa: H301
+    ContextualBlockTransformerEncoder,
 )
 
 
diff --git a/test/espnet2/asr/encoder/test_longformer_encoder.py b/test/espnet2/asr/encoder/test_longformer_encoder.py
index 8df5f5fc212..40e94fc7916 100644
--- a/test/espnet2/asr/encoder/test_longformer_encoder.py
+++ b/test/espnet2/asr/encoder/test_longformer_encoder.py
@@ -1,7 +1,8 @@
-from espnet2.asr.encoder.longformer_encoder import LongformerEncoder
 import pytest
 import torch
 
+from espnet2.asr.encoder.longformer_encoder import LongformerEncoder
+
 pytest.importorskip("longformer")
 
 
diff --git a/test/espnet2/asr/frontend/test_fused.py b/test/espnet2/asr/frontend/test_fused.py
index 4c35cfb5c03..2e5dd6cb4c1 100644
--- a/test/espnet2/asr/frontend/test_fused.py
+++ b/test/espnet2/asr/frontend/test_fused.py
@@ -1,6 +1,6 @@
-from espnet2.asr.frontend.fused import FusedFrontends
 import torch
 
+from espnet2.asr.frontend.fused import FusedFrontends
 
 frontend1 = {"frontend_type": "default", "n_mels": 80, "n_fft": 512}
 frontend2 = {"frontend_type": "default", "hop_length": 128}
diff --git a/test/espnet2/asr/frontend/test_s3prl.py b/test/espnet2/asr/frontend/test_s3prl.py
index 0bfebb823b3..cbf79da1eed 100644
--- a/test/espnet2/asr/frontend/test_s3prl.py
+++ b/test/espnet2/asr/frontend/test_s3prl.py
@@ -1,10 +1,9 @@
-from distutils.version import LooseVersion
-
 import torch
+from packaging.version import parse as V
 
 from espnet2.asr.frontend.s3prl import S3prlFrontend
 
-is_torch_1_7_plus = LooseVersion(torch.__version__) >= LooseVersion("1.7.0")
+is_torch_1_7_plus = V(torch.__version__) >= V("1.7.0")
 
 
 def test_frontend_init():
diff --git a/test/espnet2/asr/postencoder/test_hugging_face_transformers_postencoder.py b/test/espnet2/asr/postencoder/test_hugging_face_transformers_postencoder.py
index c3dbeaef4d3..3485287b7d1 100644
--- a/test/espnet2/asr/postencoder/test_hugging_face_transformers_postencoder.py
+++ b/test/espnet2/asr/postencoder/test_hugging_face_transformers_postencoder.py
@@ -2,7 +2,7 @@
 import torch
 
 from espnet2.asr.postencoder.hugging_face_transformers_postencoder import (
-    HuggingFaceTransformersPostEncoder,  # noqa: H301
+    HuggingFaceTransformersPostEncoder,
 )
 
 
diff --git a/test/espnet2/asr/preencoder/test_linear.py b/test/espnet2/asr/preencoder/test_linear.py
index bd1d29a9c5c..e4bceb644b3 100644
--- a/test/espnet2/asr/preencoder/test_linear.py
+++ b/test/espnet2/asr/preencoder/test_linear.py
@@ -1,6 +1,7 @@
-from espnet2.asr.preencoder.linear import LinearProjection
 import torch
 
+from espnet2.asr.preencoder.linear import LinearProjection
+
 
 def test_linear_projection_forward():
     idim = 400
diff --git a/test/espnet2/asr/preencoder/test_sinc.py b/test/espnet2/asr/preencoder/test_sinc.py
index 518a6520b0b..0de81993ec2 100644
--- a/test/espnet2/asr/preencoder/test_sinc.py
+++ b/test/espnet2/asr/preencoder/test_sinc.py
@@ -1,7 +1,7 @@
-from espnet2.asr.preencoder.sinc import LightweightSincConvs
-from espnet2.asr.preencoder.sinc import SpatialDropout
 import torch
 
+from espnet2.asr.preencoder.sinc import LightweightSincConvs, SpatialDropout
+
 
 def test_spatial_dropout():
     dropout = SpatialDropout()
diff --git a/test/espnet2/asr/test_maskctc_model.py b/test/espnet2/asr/test_maskctc_model.py
index 4631f9be539..708c54d2f18 100644
--- a/test/espnet2/asr/test_maskctc_model.py
+++ b/test/espnet2/asr/test_maskctc_model.py
@@ -5,8 +5,7 @@
 from espnet2.asr.decoder.mlm_decoder import MLMDecoder
 from espnet2.asr.encoder.conformer_encoder import ConformerEncoder
 from espnet2.asr.encoder.transformer_encoder import TransformerEncoder
-from espnet2.asr.maskctc_model import MaskCTCInference
-from espnet2.asr.maskctc_model import MaskCTCModel
+from espnet2.asr.maskctc_model import MaskCTCInference, MaskCTCModel
 
 
 @pytest.mark.parametrize("encoder_arch", [TransformerEncoder, ConformerEncoder])
diff --git a/test/espnet2/bin/test_aggregate_stats_dirs.py b/test/espnet2/bin/test_aggregate_stats_dirs.py
index 6584f8a57a0..6e598babce8 100644
--- a/test/espnet2/bin/test_aggregate_stats_dirs.py
+++ b/test/espnet2/bin/test_aggregate_stats_dirs.py
@@ -2,8 +2,7 @@
 
 import pytest
 
-from espnet2.bin.aggregate_stats_dirs import get_parser
-from espnet2.bin.aggregate_stats_dirs import main
+from espnet2.bin.aggregate_stats_dirs import get_parser, main
 
 
 def test_get_parser():
diff --git a/test/espnet2/bin/test_asr_align.py b/test/espnet2/bin/test_asr_align.py
index a3cad5b6872..2cafb3a5ab6 100644
--- a/test/espnet2/bin/test_asr_align.py
+++ b/test/espnet2/bin/test_asr_align.py
@@ -1,15 +1,12 @@
 """Tests for asr_align.py."""
+import string
 from argparse import ArgumentParser
 from pathlib import Path
-import string
 
 import numpy as np
 import pytest
 
-from espnet2.bin.asr_align import CTCSegmentation
-from espnet2.bin.asr_align import CTCSegmentationTask
-from espnet2.bin.asr_align import get_parser
-from espnet2.bin.asr_align import main
+from espnet2.bin.asr_align import CTCSegmentation, CTCSegmentationTask, get_parser, main
 from espnet2.tasks.asr import ASRTask
 
 
diff --git a/test/espnet2/bin/test_asr_inference.py b/test/espnet2/bin/test_asr_inference.py
index 7e7a18d9a1e..e4cd0ed527f 100644
--- a/test/espnet2/bin/test_asr_inference.py
+++ b/test/espnet2/bin/test_asr_inference.py
@@ -1,17 +1,17 @@
+import string
 from argparse import ArgumentParser
 from pathlib import Path
-import string
 
 import numpy as np
 import pytest
+import yaml
 
-from espnet.nets.beam_search import Hypothesis
-from espnet2.bin.asr_inference import get_parser
-from espnet2.bin.asr_inference import main
-from espnet2.bin.asr_inference import Speech2Text
+from espnet2.bin.asr_inference import Speech2Text, get_parser, main
+from espnet2.bin.asr_inference_streaming import Speech2TextStreaming
 from espnet2.tasks.asr import ASRTask
 from espnet2.tasks.enh_s2t import EnhS2TTask
 from espnet2.tasks.lm import LMTask
+from espnet.nets.beam_search import Hypothesis
 
 
 def test_get_parser():
@@ -84,6 +84,24 @@ def test_Speech2Text(asr_config_file, lm_config_file):
         assert isinstance(hyp, Hypothesis)
 
 
+@pytest.mark.execution_timeout(5)
+def test_Speech2Text_quantized(asr_config_file, lm_config_file):
+    speech2text = Speech2Text(
+        asr_train_config=asr_config_file,
+        lm_train_config=lm_config_file,
+        beam_size=1,
+        quantize_asr_model=True,
+        quantize_lm=True,
+    )
+    speech = np.random.randn(100000)
+    results = speech2text(speech)
+    for text, token, token_int, hyp in results:
+        assert isinstance(text, str)
+        assert isinstance(token[0], str)
+        assert isinstance(token_int[0], int)
+        assert isinstance(hyp, Hypothesis)
+
+
 @pytest.fixture()
 def asr_config_file_streaming(tmp_path: Path, token_list):
     # Write default configuration file
@@ -99,26 +117,88 @@ def asr_config_file_streaming(tmp_path: Path, token_list):
             "char",
             "--decoder",
             "transformer",
+            "--encoder",
+            "contextual_block_transformer",
         ]
     )
     return tmp_path / "asr_streaming" / "config.yaml"
 
 
-@pytest.mark.execution_timeout(10)
+@pytest.mark.execution_timeout(20)
 def test_Speech2Text_streaming(asr_config_file_streaming, lm_config_file):
-    speech2text = Speech2Text(
+    file = open(asr_config_file_streaming, "r", encoding="utf-8")
+    asr_train_config = file.read()
+    asr_train_config = yaml.full_load(asr_train_config)
+    asr_train_config["frontend"] = "default"
+    asr_train_config["encoder_conf"] = {
+        "look_ahead": 16,
+        "hop_size": 16,
+        "block_size": 40,
+    }
+    # Change the configuration file
+    with open(asr_config_file_streaming, "w", encoding="utf-8") as files:
+        yaml.dump(asr_train_config, files)
+    speech2text = Speech2TextStreaming(
         asr_train_config=asr_config_file_streaming,
         lm_train_config=lm_config_file,
         beam_size=1,
-        streaming=True,
     )
-    speech = np.random.randn(100000)
-    results = speech2text(speech)
-    for text, token, token_int, hyp in results:
-        assert isinstance(text, str)
-        assert isinstance(token[0], str)
-        assert isinstance(token_int[0], int)
-        assert isinstance(hyp, Hypothesis)
+    speech = np.random.randn(10000)
+    for sim_chunk_length in [1, 32, 128, 512, 1024, 2048]:
+        if (len(speech) // sim_chunk_length) > 1:
+            for i in range(len(speech) // sim_chunk_length):
+                speech2text(
+                    speech=speech[i * sim_chunk_length : (i + 1) * sim_chunk_length],
+                    is_final=False,
+                )
+            results = speech2text(
+                speech[(i + 1) * sim_chunk_length : len(speech)], is_final=True
+            )
+        else:
+            results = speech2text(speech)
+        for text, token, token_int, hyp in results:
+            assert isinstance(text, str)
+            assert isinstance(token[0], str)
+            assert isinstance(token_int[0], int)
+            assert isinstance(hyp, Hypothesis)
+
+    # Test edge case: https://github.com/espnet/espnet/pull/4216
+    file = open(asr_config_file_streaming, "r", encoding="utf-8")
+    asr_train_config = file.read()
+    asr_train_config = yaml.full_load(asr_train_config)
+    asr_train_config["frontend"] = "default"
+    asr_train_config["frontend_conf"] = {
+        "n_fft": 256,
+        "win_length": 256,
+        "hop_length": 128,
+    }
+    # Change the configuration file
+    with open(asr_config_file_streaming, "w", encoding="utf-8") as files:
+        yaml.dump(asr_train_config, files)
+    speech2text = Speech2TextStreaming(
+        asr_train_config=asr_config_file_streaming,
+        lm_train_config=lm_config_file,
+        beam_size=1,
+    )
+    # edge case: speech is exactly multiple of sim_chunk_length, e.g., 10240 = 5 x 2048
+    speech = np.random.randn(10240)
+    for sim_chunk_length in [1, 32, 64, 128, 512, 1024, 2048]:
+        if (len(speech) // sim_chunk_length) > 1:
+            for i in range(len(speech) // sim_chunk_length):
+                speech2text(
+                    speech=speech[i * sim_chunk_length : (i + 1) * sim_chunk_length],
+                    is_final=False,
+                )
+            results = speech2text(
+                speech[(i + 1) * sim_chunk_length : len(speech)], is_final=True
+            )
+        else:
+            results = speech2text(speech)
+        for text, token, token_int, hyp in results:
+            assert isinstance(text, str)
+            assert isinstance(token[0], str)
+            assert isinstance(token_int[0], int)
+            assert isinstance(hyp, Hypothesis)
 
 
 @pytest.fixture()
diff --git a/test/espnet2/bin/test_asr_inference_k2.py b/test/espnet2/bin/test_asr_inference_k2.py
index 823c5ce848b..3a76240d00f 100644
--- a/test/espnet2/bin/test_asr_inference_k2.py
+++ b/test/espnet2/bin/test_asr_inference_k2.py
@@ -1,6 +1,6 @@
+import string
 from argparse import ArgumentParser
 from pathlib import Path
-import string
 
 import numpy as np
 import pytest
@@ -8,7 +8,6 @@
 from espnet2.tasks.asr import ASRTask
 from espnet2.tasks.lm import LMTask
 
-
 pytest.importorskip("k2")
 
 
diff --git a/test/espnet2/bin/test_asr_inference_maskctc.py b/test/espnet2/bin/test_asr_inference_maskctc.py
index 21a1d0392b4..ff52e5a440a 100644
--- a/test/espnet2/bin/test_asr_inference_maskctc.py
+++ b/test/espnet2/bin/test_asr_inference_maskctc.py
@@ -1,15 +1,13 @@
+import string
 from argparse import ArgumentParser
 from pathlib import Path
-import string
 
 import numpy as np
 import pytest
 
-from espnet.nets.beam_search import Hypothesis
-from espnet2.bin.asr_inference_maskctc import get_parser
-from espnet2.bin.asr_inference_maskctc import main
-from espnet2.bin.asr_inference_maskctc import Speech2Text
+from espnet2.bin.asr_inference_maskctc import Speech2Text, get_parser, main
 from espnet2.tasks.asr import ASRTask
+from espnet.nets.beam_search import Hypothesis
 
 
 def test_get_parser():
diff --git a/test/espnet2/bin/test_asr_train.py b/test/espnet2/bin/test_asr_train.py
index 066c28865c1..1188a628313 100644
--- a/test/espnet2/bin/test_asr_train.py
+++ b/test/espnet2/bin/test_asr_train.py
@@ -2,8 +2,7 @@
 
 import pytest
 
-from espnet2.bin.asr_train import get_parser
-from espnet2.bin.asr_train import main
+from espnet2.bin.asr_train import get_parser, main
 
 
 def test_get_parser():
diff --git a/test/espnet2/bin/test_diar_inference.py b/test/espnet2/bin/test_diar_inference.py
index 8781200eb72..3275aca9dbf 100644
--- a/test/espnet2/bin/test_diar_inference.py
+++ b/test/espnet2/bin/test_diar_inference.py
@@ -4,9 +4,7 @@
 import pytest
 import torch
 
-from espnet2.bin.diar_inference import DiarizeSpeech
-from espnet2.bin.diar_inference import get_parser
-from espnet2.bin.diar_inference import main
+from espnet2.bin.diar_inference import DiarizeSpeech, get_parser, main
 from espnet2.tasks.diar import DiarizationTask
 
 
diff --git a/test/espnet2/bin/test_diar_train.py b/test/espnet2/bin/test_diar_train.py
index 9f0cd5dff2f..ddb991df968 100644
--- a/test/espnet2/bin/test_diar_train.py
+++ b/test/espnet2/bin/test_diar_train.py
@@ -2,8 +2,7 @@
 
 import pytest
 
-from espnet2.bin.diar_train import get_parser
-from espnet2.bin.diar_train import main
+from espnet2.bin.diar_train import get_parser, main
 
 
 def test_get_parser():
diff --git a/test/espnet2/bin/test_enh_inference.py b/test/espnet2/bin/test_enh_inference.py
index 2bad3cae4ea..95d788784f9 100644
--- a/test/espnet2/bin/test_enh_inference.py
+++ b/test/espnet2/bin/test_enh_inference.py
@@ -1,14 +1,12 @@
+import string
 from argparse import ArgumentParser
 from pathlib import Path
-import string
 
 import pytest
 import torch
 import yaml
 
-from espnet2.bin.enh_inference import get_parser
-from espnet2.bin.enh_inference import main
-from espnet2.bin.enh_inference import SeparateSpeech
+from espnet2.bin.enh_inference import SeparateSpeech, get_parser, main
 from espnet2.enh.encoder.stft_encoder import STFTEncoder
 from espnet2.tasks.enh import EnhancementTask
 from espnet2.tasks.enh_s2t import EnhS2TTask
diff --git a/test/espnet2/bin/test_enh_s2t_train.py b/test/espnet2/bin/test_enh_s2t_train.py
index 2cd4fe6f94f..b75431df8b9 100644
--- a/test/espnet2/bin/test_enh_s2t_train.py
+++ b/test/espnet2/bin/test_enh_s2t_train.py
@@ -2,8 +2,7 @@
 
 import pytest
 
-from espnet2.bin.enh_s2t_train import get_parser
-from espnet2.bin.enh_s2t_train import main
+from espnet2.bin.enh_s2t_train import get_parser, main
 
 
 def test_get_parser():
diff --git a/test/espnet2/bin/test_enh_scoring.py b/test/espnet2/bin/test_enh_scoring.py
index a4e6f31ae88..fb4ec500e53 100644
--- a/test/espnet2/bin/test_enh_scoring.py
+++ b/test/espnet2/bin/test_enh_scoring.py
@@ -2,8 +2,7 @@
 
 import pytest
 
-from espnet2.bin.enh_scoring import get_parser
-from espnet2.bin.enh_scoring import main
+from espnet2.bin.enh_scoring import get_parser, main
 
 
 def test_get_parser():
diff --git a/test/espnet2/bin/test_enh_train.py b/test/espnet2/bin/test_enh_train.py
index 15620a92851..23939a826e6 100644
--- a/test/espnet2/bin/test_enh_train.py
+++ b/test/espnet2/bin/test_enh_train.py
@@ -2,8 +2,7 @@
 
 import pytest
 
-from espnet2.bin.enh_train import get_parser
-from espnet2.bin.enh_train import main
+from espnet2.bin.enh_train import get_parser, main
 
 
 def test_get_parser():
diff --git a/test/espnet2/bin/test_hubert_train.py b/test/espnet2/bin/test_hubert_train.py
index 912cb4cae68..d74afcd197d 100644
--- a/test/espnet2/bin/test_hubert_train.py
+++ b/test/espnet2/bin/test_hubert_train.py
@@ -2,8 +2,7 @@
 
 import pytest
 
-from espnet2.bin.hubert_train import get_parser
-from espnet2.bin.hubert_train import main
+from espnet2.bin.hubert_train import get_parser, main
 
 
 def test_get_parser():
diff --git a/test/espnet2/bin/test_lm_calc_perplexity.py b/test/espnet2/bin/test_lm_calc_perplexity.py
index 51126a783f7..e8010aad525 100644
--- a/test/espnet2/bin/test_lm_calc_perplexity.py
+++ b/test/espnet2/bin/test_lm_calc_perplexity.py
@@ -2,8 +2,7 @@
 
 import pytest
 
-from espnet2.bin.lm_calc_perplexity import get_parser
-from espnet2.bin.lm_calc_perplexity import main
+from espnet2.bin.lm_calc_perplexity import get_parser, main
 
 
 def test_get_parser():
diff --git a/test/espnet2/bin/test_lm_train.py b/test/espnet2/bin/test_lm_train.py
index ff1c7dce247..1889a985087 100644
--- a/test/espnet2/bin/test_lm_train.py
+++ b/test/espnet2/bin/test_lm_train.py
@@ -2,8 +2,7 @@
 
 import pytest
 
-from espnet2.bin.lm_train import get_parser
-from espnet2.bin.lm_train import main
+from espnet2.bin.lm_train import get_parser, main
 
 
 def test_get_parser():
diff --git a/test/espnet2/bin/test_pack.py b/test/espnet2/bin/test_pack.py
index 0e242de8036..fb98168f365 100755
--- a/test/espnet2/bin/test_pack.py
+++ b/test/espnet2/bin/test_pack.py
@@ -2,8 +2,7 @@
 
 import pytest
 
-from espnet2.bin.pack import get_parser
-from espnet2.bin.pack import main
+from espnet2.bin.pack import get_parser, main
 
 
 def test_get_parser():
diff --git a/test/espnet2/bin/test_st_inference.py b/test/espnet2/bin/test_st_inference.py
new file mode 100644
index 00000000000..f43d2be403c
--- /dev/null
+++ b/test/espnet2/bin/test_st_inference.py
@@ -0,0 +1,73 @@
+import string
+from argparse import ArgumentParser
+from pathlib import Path
+
+import numpy as np
+import pytest
+
+from espnet2.bin.st_inference import Speech2Text, get_parser, main
+from espnet2.tasks.st import STTask
+from espnet.nets.beam_search import Hypothesis
+
+
+def test_get_parser():
+    assert isinstance(get_parser(), ArgumentParser)
+
+
+def test_main():
+    with pytest.raises(SystemExit):
+        main()
+
+
+@pytest.fixture()
+def token_list(tmp_path: Path):
+    with (tmp_path / "tokens.txt").open("w") as f:
+        f.write("<blank>\n")
+        for c in string.ascii_letters:
+            f.write(f"{c}\n")
+        f.write("<unk>\n")
+        f.write("<sos/eos>\n")
+    return tmp_path / "tokens.txt"
+
+
+@pytest.fixture()
+def src_token_list(tmp_path: Path):
+    with (tmp_path / "src_tokens.txt").open("w") as f:
+        f.write("<blank>\n")
+        for c in string.ascii_letters:
+            f.write(f"{c}\n")
+        f.write("<unk>\n")
+        f.write("<sos/eos>\n")
+    return tmp_path / "src_tokens.txt"
+
+
+@pytest.fixture()
+def st_config_file(tmp_path: Path, token_list, src_token_list):
+    # Write default configuration file
+    STTask.main(
+        cmd=[
+            "--dry_run",
+            "true",
+            "--output_dir",
+            str(tmp_path / "st"),
+            "--token_list",
+            str(token_list),
+            "--src_token_list",
+            str(src_token_list),
+            "--token_type",
+            "char",
+        ]
+    )
+    return tmp_path / "st" / "config.yaml"
+
+
+@pytest.mark.execution_timeout(5)
+def test_Speech2Text(st_config_file):
+    speech2text = Speech2Text(st_train_config=st_config_file, beam_size=1)
+    speech = np.random.randn(1000)
+    results = speech2text(speech)
+    for text, token, token_int, hyp in results:
+        assert isinstance(text, str)
+        assert isinstance(token[0], str)
+        assert isinstance(token_int[0], int)
+        assert isinstance(hyp, Hypothesis)
diff --git a/test/espnet2/bin/test_st_train.py b/test/espnet2/bin/test_st_train.py
new file mode 100644
index 00000000000..5fd51bdec02
--- /dev/null
+++ b/test/espnet2/bin/test_st_train.py
@@ -0,0 +1,14 @@
+from argparse import ArgumentParser
+
+import pytest
+
+from espnet2.bin.st_train import get_parser, main
+
+
+def test_get_parser():
+    assert isinstance(get_parser(), ArgumentParser)
+
+
+def test_main():
+    with pytest.raises(SystemExit):
+        main()
diff --git a/test/espnet2/bin/test_tokenize_text.py b/test/espnet2/bin/test_tokenize_text.py
index 18ecc79dd59..42b59a5359c 100755
--- a/test/espnet2/bin/test_tokenize_text.py
+++ b/test/espnet2/bin/test_tokenize_text.py
@@ -2,8 +2,7 @@
 
 import pytest
 
-from espnet2.bin.tokenize_text import get_parser
-from espnet2.bin.tokenize_text import main
+from espnet2.bin.tokenize_text import get_parser, main
 
 
 def test_get_parser():
diff --git a/test/espnet2/bin/test_tts_inference.py b/test/espnet2/bin/test_tts_inference.py
index 7c0c5e281a9..b8d47e4eb5e 100644
--- a/test/espnet2/bin/test_tts_inference.py
+++ b/test/espnet2/bin/test_tts_inference.py
@@ -1,12 +1,10 @@
+import string
 from argparse import ArgumentParser
 from pathlib import Path
-import string
 
 import pytest
 
-from espnet2.bin.tts_inference import get_parser
-from espnet2.bin.tts_inference import main
-from espnet2.bin.tts_inference import Text2Speech
+from espnet2.bin.tts_inference import Text2Speech, get_parser, main
 from espnet2.tasks.tts import TTSTask
 
 
diff --git a/test/espnet2/bin/test_tts_train.py b/test/espnet2/bin/test_tts_train.py
index 236bae3fe27..5b5bf18e58a 100644
--- a/test/espnet2/bin/test_tts_train.py
+++ b/test/espnet2/bin/test_tts_train.py
@@ -2,8 +2,7 @@
 
 import pytest
 
-from espnet2.bin.tts_train import get_parser
-from espnet2.bin.tts_train import main
+from espnet2.bin.tts_train import get_parser, main
 
 
 def test_get_parser():
diff --git a/test/espnet2/enh/decoder/test_stft_decoder.py b/test/espnet2/enh/decoder/test_stft_decoder.py
index 4389d7b858f..3443bfc073e 100644
--- a/test/espnet2/enh/decoder/test_stft_decoder.py
+++ b/test/espnet2/enh/decoder/test_stft_decoder.py
@@ -1,5 +1,4 @@
 import pytest
-
 import torch
 from torch_complex import ComplexTensor
 
diff --git a/test/espnet2/enh/layers/test_complex_utils.py b/test/espnet2/enh/layers/test_complex_utils.py
index e566f3aea76..9c3158435c9 100644
--- a/test/espnet2/enh/layers/test_complex_utils.py
+++ b/test/espnet2/enh/layers/test_complex_utils.py
@@ -1,22 +1,22 @@
-from distutils.version import LooseVersion
-
 import numpy as np
 import pytest
 import torch
 import torch_complex.functional as FC
+from packaging.version import parse as V
 from torch_complex.tensor import ComplexTensor
 
-from espnet2.enh.layers.complex_utils import cat
-from espnet2.enh.layers.complex_utils import complex_norm
-from espnet2.enh.layers.complex_utils import einsum
-from espnet2.enh.layers.complex_utils import inverse
-from espnet2.enh.layers.complex_utils import matmul
-from espnet2.enh.layers.complex_utils import solve
-from espnet2.enh.layers.complex_utils import stack
-from espnet2.enh.layers.complex_utils import trace
-
+from espnet2.enh.layers.complex_utils import (
+    cat,
+    complex_norm,
+    einsum,
+    inverse,
+    matmul,
+    solve,
+    stack,
+    trace,
+)
 
-is_torch_1_9_plus = LooseVersion(torch.__version__) >= LooseVersion("1.9.0")
+is_torch_1_9_plus = V(torch.__version__) >= V("1.9.0")
 # invertible matrix
 mat_np = np.array(
     [
diff --git a/test/espnet2/enh/layers/test_conv_utils.py b/test/espnet2/enh/layers/test_conv_utils.py
index 7e7ea22672c..2341fe31681 100644
--- a/test/espnet2/enh/layers/test_conv_utils.py
+++ b/test/espnet2/enh/layers/test_conv_utils.py
@@ -1,8 +1,7 @@
 import pytest
 import torch
 
-from espnet2.enh.layers.conv_utils import conv2d_output_shape
-from espnet2.enh.layers.conv_utils import convtransp2d_output_shape
+from espnet2.enh.layers.conv_utils import conv2d_output_shape, convtransp2d_output_shape
 
 
 @pytest.mark.parametrize("input_dim", [(10, 17), (10, 33)])
diff --git a/test/espnet2/enh/layers/test_enh_layers.py b/test/espnet2/enh/layers/test_enh_layers.py
index 62f4554b10b..19a450b5295 100644
--- a/test/espnet2/enh/layers/test_enh_layers.py
+++ b/test/espnet2/enh/layers/test_enh_layers.py
@@ -1,20 +1,21 @@
-from distutils.version import LooseVersion
-
 import numpy as np
 import pytest
 import torch
 import torch_complex.functional as FC
+from packaging.version import parse as V
 from torch_complex.tensor import ComplexTensor
 
-from espnet2.enh.layers.beamformer import generalized_eigenvalue_decomposition
-from espnet2.enh.layers.beamformer import get_rtf
-from espnet2.enh.layers.beamformer import gev_phase_correction
-from espnet2.enh.layers.beamformer import signal_framing
+from espnet2.enh.layers.beamformer import (
+    generalized_eigenvalue_decomposition,
+    get_rtf,
+    gev_phase_correction,
+    signal_framing,
+)
 from espnet2.enh.layers.complex_utils import solve
 from espnet2.layers.stft import Stft
 
-is_torch_1_1_plus = LooseVersion(torch.__version__) >= LooseVersion("1.1.0")
-is_torch_1_9_plus = LooseVersion(torch.__version__) >= LooseVersion("1.9.0")
+is_torch_1_1_plus = V(torch.__version__) >= V("1.1.0")
+is_torch_1_9_plus = V(torch.__version__) >= V("1.9.0")
 
 
 random_speech = torch.tensor(
diff --git a/test/espnet2/enh/loss/criterions/test_tf_domain.py b/test/espnet2/enh/loss/criterions/test_tf_domain.py
index 41999948887..924720bcd0d 100644
--- a/test/espnet2/enh/loss/criterions/test_tf_domain.py
+++ b/test/espnet2/enh/loss/criterions/test_tf_domain.py
@@ -1,16 +1,17 @@
-from distutils.version import LooseVersion
 import pytest
 import torch
-
+from packaging.version import parse as V
 from torch_complex import ComplexTensor
 
-from espnet2.enh.loss.criterions.tf_domain import FrequencyDomainAbsCoherence
-from espnet2.enh.loss.criterions.tf_domain import FrequencyDomainCrossEntropy
-from espnet2.enh.loss.criterions.tf_domain import FrequencyDomainL1
-from espnet2.enh.loss.criterions.tf_domain import FrequencyDomainMSE
-
+from espnet2.enh.loss.criterions.tf_domain import (
+    FrequencyDomainAbsCoherence,
+    FrequencyDomainCrossEntropy,
+    FrequencyDomainDPCL,
+    FrequencyDomainL1,
+    FrequencyDomainMSE,
+)
 
-is_torch_1_9_plus = LooseVersion(torch.__version__) >= LooseVersion("1.9.0")
+is_torch_1_9_plus = V(torch.__version__) >= V("1.9.0")
 
 
 @pytest.mark.parametrize("criterion_class", [FrequencyDomainL1, FrequencyDomainMSE])
@@ -93,3 +94,22 @@ def test_tf_ce_criterion_forward(input_ch):
 
     loss = criterion(ref_spec, inf_spec)
     assert loss.shape == (batch,), "Invlid loss shape with " + criterion.name
+
+
+@pytest.mark.parametrize("loss_type", ["dpcl", "mdc"])
+def test_tf_dpcl_loss_criterion_forward(loss_type):
+
+    criterion = FrequencyDomainDPCL(loss_type=loss_type)
+
+    batch = 2
+    inf = torch.rand(batch, 10 * 200, 40)
+    ref_spec = [
+        ComplexTensor(torch.rand(batch, 10, 200), torch.rand(batch, 10, 200)),
+        ComplexTensor(torch.rand(batch, 10, 200), torch.rand(batch, 10, 200)),
+        ComplexTensor(torch.rand(batch, 10, 200), torch.rand(batch, 10, 200)),
+    ]
+
+    ref = [abs(r) for r in ref_spec]
+
+    loss = criterion(ref, inf)
+    assert loss.shape == (batch,), "Invlid loss shape with " + criterion.name
diff --git a/test/espnet2/enh/loss/criterions/test_time_domain.py b/test/espnet2/enh/loss/criterions/test_time_domain.py
index 208b23ab85f..2bbfc30edec 100644
--- a/test/espnet2/enh/loss/criterions/test_time_domain.py
+++ b/test/espnet2/enh/loss/criterions/test_time_domain.py
@@ -1,12 +1,14 @@
 import pytest
 import torch
 
-from espnet2.enh.loss.criterions.time_domain import CISDRLoss
-from espnet2.enh.loss.criterions.time_domain import SDRLoss
-from espnet2.enh.loss.criterions.time_domain import SISNRLoss
-from espnet2.enh.loss.criterions.time_domain import SNRLoss
-from espnet2.enh.loss.criterions.time_domain import TimeDomainL1
-from espnet2.enh.loss.criterions.time_domain import TimeDomainMSE
+from espnet2.enh.loss.criterions.time_domain import (
+    CISDRLoss,
+    SDRLoss,
+    SISNRLoss,
+    SNRLoss,
+    TimeDomainL1,
+    TimeDomainMSE,
+)
 
 
 @pytest.mark.parametrize("criterion_class", [CISDRLoss, SISNRLoss, SNRLoss, SDRLoss])
diff --git a/test/espnet2/enh/loss/wrappers/test_dpcl_solver.py b/test/espnet2/enh/loss/wrappers/test_dpcl_solver.py
new file mode 100644
index 00000000000..b5c14c78c3e
--- /dev/null
+++ b/test/espnet2/enh/loss/wrappers/test_dpcl_solver.py
@@ -0,0 +1,17 @@
+import pytest
+import torch
+
+from espnet2.enh.loss.criterions.tf_domain import FrequencyDomainDPCL
+from espnet2.enh.loss.wrappers.dpcl_solver import DPCLSolver
+
+
+@pytest.mark.parametrize("num_spk", [1, 2, 3])
+def test_DPCLSolver_forward(num_spk):
+
+    batch = 2
+    o = {"tf_embedding": torch.rand(batch, 10 * 200, 40)}
+    inf = [torch.rand(batch, 10, 200) for spk in range(num_spk)]
+    ref = [inf[num_spk - spk - 1] for spk in range(num_spk)]  # reverse inf as ref
+    solver = DPCLSolver(FrequencyDomainDPCL())
+
+    loss, stats, others = solver(ref, inf, o)
diff --git a/test/espnet2/enh/loss/wrappers/test_multilayer_pit_solver.py b/test/espnet2/enh/loss/wrappers/test_multilayer_pit_solver.py
index 3505a007eee..63db4587e38 100644
--- a/test/espnet2/enh/loss/wrappers/test_multilayer_pit_solver.py
+++ b/test/espnet2/enh/loss/wrappers/test_multilayer_pit_solver.py
@@ -1,5 +1,4 @@
 import pytest
-
 import torch
 
 from espnet2.enh.loss.criterions.tf_domain import FrequencyDomainL1
diff --git a/test/espnet2/enh/loss/wrappers/test_pit_solver.py b/test/espnet2/enh/loss/wrappers/test_pit_solver.py
index ddba099e17e..70c8d48fbff 100644
--- a/test/espnet2/enh/loss/wrappers/test_pit_solver.py
+++ b/test/espnet2/enh/loss/wrappers/test_pit_solver.py
@@ -2,8 +2,10 @@
 import torch
 import torch.nn.functional as F
 
-from espnet2.enh.loss.criterions.tf_domain import FrequencyDomainCrossEntropy
-from espnet2.enh.loss.criterions.tf_domain import FrequencyDomainL1
+from espnet2.enh.loss.criterions.tf_domain import (
+    FrequencyDomainCrossEntropy,
+    FrequencyDomainL1,
+)
 from espnet2.enh.loss.wrappers.pit_solver import PITSolver
 
 
diff --git a/test/espnet2/enh/separator/test_beamformer.py b/test/espnet2/enh/separator/test_beamformer.py
index 3a10c7a9643..9e58b428ad5 100644
--- a/test/espnet2/enh/separator/test_beamformer.py
+++ b/test/espnet2/enh/separator/test_beamformer.py
@@ -1,13 +1,12 @@
-from distutils.version import LooseVersion
 import pytest
 import torch
+from packaging.version import parse as V
 
 from espnet2.enh.encoder.stft_encoder import STFTEncoder
 from espnet2.enh.layers.dnn_beamformer import BEAMFORMER_TYPES
 from espnet2.enh.separator.neural_beamformer import NeuralBeamformer
 
-
-is_torch_1_9_plus = LooseVersion(torch.__version__) >= LooseVersion("1.9.0")
+is_torch_1_9_plus = V(torch.__version__) >= V("1.9.0")
 random_speech = torch.tensor(
     [
         [
diff --git a/test/espnet2/enh/separator/test_conformer_separator.py b/test/espnet2/enh/separator/test_conformer_separator.py
index 2ba800acaa2..b9e0b924d65 100644
--- a/test/espnet2/enh/separator/test_conformer_separator.py
+++ b/test/espnet2/enh/separator/test_conformer_separator.py
@@ -1,5 +1,4 @@
 import pytest
-
 import torch
 from torch import Tensor
 from torch_complex.tensor import ComplexTensor
diff --git a/test/espnet2/enh/separator/test_dan_separator.py b/test/espnet2/enh/separator/test_dan_separator.py
new file mode 100644
index 00000000000..2ea1767ad46
--- /dev/null
+++ b/test/espnet2/enh/separator/test_dan_separator.py
@@ -0,0 +1,129 @@
+import pytest
+import torch
+from torch import Tensor
+from torch_complex import ComplexTensor
+
+from espnet2.enh.separator.dan_separator import DANSeparator
+
+
+@pytest.mark.parametrize("input_dim", [5])
+@pytest.mark.parametrize("rnn_type", ["blstm"])
+@pytest.mark.parametrize("layer", [1, 3])
+@pytest.mark.parametrize("unit", [8])
+@pytest.mark.parametrize("dropout", [0.0, 0.2])
+@pytest.mark.parametrize("num_spk", [2])
+@pytest.mark.parametrize("emb_D", [40])
+@pytest.mark.parametrize("nonlinear", ["relu", "sigmoid", "tanh"])
+def test_dan_separator_forward_backward_complex(
+    input_dim, rnn_type, layer, unit, dropout, num_spk, emb_D, nonlinear
+):
+    model = DANSeparator(
+        input_dim=input_dim,
+        rnn_type=rnn_type,
+        layer=layer,
+        unit=unit,
+        dropout=dropout,
+        num_spk=num_spk,
+        emb_D=emb_D,
+        nonlinear=nonlinear,
+    )
+    model.train()
+
+    real = torch.rand(2, 10, input_dim)
+    imag = torch.rand(2, 10, input_dim)
+    x = ComplexTensor(real, imag)
+    x_lens = torch.tensor([10, 8], dtype=torch.long)
+
+    o = []
+    for i in range(num_spk):
+        o.append(ComplexTensor(real, imag))
+
+    sep_others = {}
+    sep_others["feature_ref"] = o
+
+    masked, flens, others = model(x, ilens=x_lens, additional=sep_others)
+
+    assert isinstance(masked[0], ComplexTensor)
+    assert len(masked) == num_spk
+
+    masked[0].abs().mean().backward()
+
+
+@pytest.mark.parametrize("input_dim", [5])
+@pytest.mark.parametrize("rnn_type", ["blstm"])
+@pytest.mark.parametrize("layer", [1, 3])
+@pytest.mark.parametrize("unit", [8])
+@pytest.mark.parametrize("dropout", [0.0, 0.2])
+@pytest.mark.parametrize("num_spk", [1, 2])
+@pytest.mark.parametrize("emb_D", [40])
+@pytest.mark.parametrize("nonlinear", ["relu", "sigmoid", "tanh"])
+def test_dan_separator_forward_backward_real(
+    input_dim, rnn_type, layer, unit, dropout, num_spk, emb_D, nonlinear
+):
+    model = DANSeparator(
+        input_dim=input_dim,
+        rnn_type=rnn_type,
+        layer=layer,
+        unit=unit,
+        dropout=dropout,
+        num_spk=num_spk,
+        emb_D=emb_D,
+        nonlinear=nonlinear,
+    )
+    model.train()
+
+    x = torch.rand(2, 10, input_dim)
+    x_lens = torch.tensor([10, 8], dtype=torch.long)
+
+    o = []
+    for i in range(num_spk):
+        o.append(ComplexTensor(x, x))
+
+    sep_others = {}
+    sep_others["feature_ref"] = o
+
+    masked, flens, others = model(x, ilens=x_lens, additional=sep_others)
+
+    assert isinstance(masked[0], Tensor)
+    assert len(masked) == num_spk
+
+    masked[0].abs().mean().backward()
+
+
+def test_dan_separator_invalid_type():
+    with pytest.raises(ValueError):
+        DANSeparator(
+            input_dim=10,
+            rnn_type="rnn",
+            layer=2,
+            unit=10,
+            dropout=0.1,
+            num_spk=2,
+            emb_D=40,
+            nonlinear="fff",
+        )
+
+
+def test_dan_separator_output():
+
+    x = torch.rand(1, 10, 10)
+    x_lens = torch.tensor([10], dtype=torch.long)
+
+    for num_spk in range(1, 4):
+        model = DANSeparator(
+            input_dim=10,
+            rnn_type="rnn",
+            layer=2,
+            unit=10,
+            dropout=0.1,
+            num_spk=num_spk,
+            emb_D=40,
+            nonlinear="relu",
+        )
+        model.eval()
+        specs, _, others = model(x, x_lens)
+        assert isinstance(specs, list)
+        assert isinstance(others, dict)
+        for n in range(num_spk):
+            assert "mask_spk{}".format(n + 1) in others
+            assert specs[n].shape == others["mask_spk{}".format(n + 1)].shape
diff --git a/test/espnet2/enh/separator/test_dc_crn_separator.py b/test/espnet2/enh/separator/test_dc_crn_separator.py
index 712de05e063..21cb54bbd6f 100644
--- a/test/espnet2/enh/separator/test_dc_crn_separator.py
+++ b/test/espnet2/enh/separator/test_dc_crn_separator.py
@@ -1,14 +1,12 @@
-from distutils.version import LooseVersion
 import pytest
-
 import torch
+from packaging.version import parse as V
 from torch_complex import ComplexTensor
 
 from espnet2.enh.layers.complex_utils import is_complex
 from espnet2.enh.separator.dc_crn_separator import DC_CRNSeparator
 
-
-is_torch_1_9_plus = LooseVersion(torch.__version__) >= LooseVersion("1.9.0")
+is_torch_1_9_plus = V(torch.__version__) >= V("1.9.0")
 
 
 @pytest.mark.parametrize("input_dim", [33, 65])
diff --git a/test/espnet2/enh/separator/test_dccrn_separator.py b/test/espnet2/enh/separator/test_dccrn_separator.py
index acf30c1ed98..d30ba0c9ee0 100644
--- a/test/espnet2/enh/separator/test_dccrn_separator.py
+++ b/test/espnet2/enh/separator/test_dccrn_separator.py
@@ -1,12 +1,11 @@
-from distutils.version import LooseVersion
 import pytest
-
 import torch
+from packaging.version import parse as V
 from torch_complex import ComplexTensor
 
 from espnet2.enh.separator.dccrn_separator import DCCRNSeparator
 
-is_torch_1_9_plus = LooseVersion(torch.__version__) >= LooseVersion("1.9.0")
+is_torch_1_9_plus = V(torch.__version__) >= V("1.9.0")
 
 
 @pytest.mark.parametrize("input_dim", [9])
diff --git a/test/espnet2/enh/separator/test_dpcl_e2e_separator.py b/test/espnet2/enh/separator/test_dpcl_e2e_separator.py
new file mode 100644
index 00000000000..574bc26b22f
--- /dev/null
+++ b/test/espnet2/enh/separator/test_dpcl_e2e_separator.py
@@ -0,0 +1,145 @@
+import pytest
+import torch
+from torch import Tensor
+from torch_complex import ComplexTensor
+
+from espnet2.enh.separator.dpcl_e2e_separator import DPCLE2ESeparator
+
+
+@pytest.mark.parametrize("input_dim", [5])
+@pytest.mark.parametrize("rnn_type", ["blstm"])
+@pytest.mark.parametrize("layer", [1, 3])
+@pytest.mark.parametrize("unit", [8])
+@pytest.mark.parametrize("dropout", [0.0, 0.2])
+@pytest.mark.parametrize("num_spk", [2])
+@pytest.mark.parametrize("emb_D", [40])
+@pytest.mark.parametrize("nonlinear", ["relu", "sigmoid", "tanh"])
+@pytest.mark.parametrize("alpha", [1.0, 5.0])
+@pytest.mark.parametrize("max_iteration", [100, 500])
+def test_dpcl_e2e_separator_forward_backward_complex(
+    input_dim,
+    rnn_type,
+    layer,
+    unit,
+    dropout,
+    num_spk,
+    emb_D,
+    nonlinear,
+    alpha,
+    max_iteration,
+):
+    model = DPCLE2ESeparator(
+        input_dim=input_dim,
+        rnn_type=rnn_type,
+        layer=layer,
+        unit=unit,
+        dropout=dropout,
+        num_spk=num_spk,
+        emb_D=emb_D,
+        nonlinear=nonlinear,
+        alpha=alpha,
+        max_iteration=max_iteration,
+    )
+    model.train()
+
+    real = torch.rand(2, 10, input_dim)
+    imag = torch.rand(2, 10, input_dim)
+    x = ComplexTensor(real, imag)
+    x_lens = torch.tensor([10, 8], dtype=torch.long)
+
+    masked, flens, others = model(x, ilens=x_lens)
+
+    assert isinstance(masked[0], ComplexTensor)
+    assert len(masked) == num_spk
+
+    masked[0].abs().mean().backward()
+
+
+@pytest.mark.parametrize("input_dim", [5])
+@pytest.mark.parametrize("rnn_type", ["blstm"])
+@pytest.mark.parametrize("layer", [1, 3])
+@pytest.mark.parametrize("unit", [8])
+@pytest.mark.parametrize("dropout", [0.0, 0.2])
+@pytest.mark.parametrize("num_spk", [2])
+@pytest.mark.parametrize("emb_D", [40])
+@pytest.mark.parametrize("nonlinear", ["relu", "sigmoid", "tanh"])
+@pytest.mark.parametrize("alpha", [1.0, 5.0])
+@pytest.mark.parametrize("max_iteration", [100, 500])
+def test_dpcl_e2e_separator_forward_backward_real(
+    input_dim,
+    rnn_type,
+    layer,
+    unit,
+    dropout,
+    num_spk,
+    emb_D,
+    nonlinear,
+    alpha,
+    max_iteration,
+):
+    model = DPCLE2ESeparator(
+        input_dim=input_dim,
+        rnn_type=rnn_type,
+        layer=layer,
+        unit=unit,
+        dropout=dropout,
+        num_spk=num_spk,
+        emb_D=emb_D,
+        nonlinear=nonlinear,
+        alpha=alpha,
+        max_iteration=max_iteration,
+    )
+    model.train()
+
+    x = torch.rand(2, 10, input_dim)
+    x_lens = torch.tensor([10, 8], dtype=torch.long)
+
+    masked, flens, others = model(x, ilens=x_lens)
+
+    assert isinstance(masked[0], Tensor)
+    assert len(masked) == num_spk
+
+    masked[0].abs().mean().backward()
+
+
+def test_dpcl_e2e_separator_invalid_type():
+    with pytest.raises(ValueError):
+        DPCLE2ESeparator(
+            input_dim=10,
+            rnn_type="rnn",
+            layer=2,
+            unit=10,
+            dropout=0.1,
+            num_spk=2,
+            emb_D=40,
+            nonlinear="fff",
+            alpha=5.0,
+            max_iteration=100,
+        )
+
+
+def test_dpcl_e2e_separator_output():
+
+    x = torch.rand(1, 10, 10)
+    x_lens = torch.tensor([10], dtype=torch.long)
+
+    for num_spk in range(1, 4):
+        model = DPCLE2ESeparator(
+            input_dim=10,
+            rnn_type="rnn",
+            layer=2,
+            unit=10,
+            dropout=0.1,
+            num_spk=num_spk,
+            emb_D=40,
+            nonlinear="relu",
+            alpha=5.0,
+            max_iteration=100,
+        )
+        model.eval()
+        specs, _, others = model(x, x_lens)
+        assert isinstance(specs, list)
+        assert isinstance(others, dict)
+        for n in range(num_spk):
+            assert "mask_spk{}".format(n + 1) in others
+            assert specs[n].shape == others["mask_spk{}".format(n + 1)].shape
diff --git a/test/espnet2/enh/separator/test_dpcl_separator.py b/test/espnet2/enh/separator/test_dpcl_separator.py
new file mode 100644
index 00000000000..3c7693492e0
--- /dev/null
+++ b/test/espnet2/enh/separator/test_dpcl_separator.py
@@ -0,0 +1,112 @@
+import pytest
+import torch
+from torch_complex import ComplexTensor
+
+from espnet2.enh.separator.dpcl_separator import DPCLSeparator
+
+
+@pytest.mark.parametrize("input_dim", [5])
+@pytest.mark.parametrize("rnn_type", ["blstm"])
+@pytest.mark.parametrize("layer", [1, 3])
+@pytest.mark.parametrize("unit", [8])
+@pytest.mark.parametrize("dropout", [0.0, 0.2])
+@pytest.mark.parametrize("num_spk", [2])
+@pytest.mark.parametrize("emb_D", [40])
+@pytest.mark.parametrize("nonlinear", ["relu", "sigmoid", "tanh"])
+def test_dpcl_separator_forward_backward_complex(
+    input_dim, rnn_type, layer, unit, dropout, num_spk, emb_D, nonlinear
+):
+    model = DPCLSeparator(
+        input_dim=input_dim,
+        rnn_type=rnn_type,
+        layer=layer,
+        unit=unit,
+        dropout=dropout,
+        num_spk=num_spk,
+        emb_D=emb_D,
+        nonlinear=nonlinear,
+    )
+    model.train()
+
+    real = torch.rand(2, 10, input_dim)
+    imag = torch.rand(2, 10, input_dim)
+    x = ComplexTensor(real, imag)
+    x_lens = torch.tensor([10, 8], dtype=torch.long)
+
+    masked, flens, others = model(x, ilens=x_lens)
+
+    assert "tf_embedding" in others
+
+    others["tf_embedding"].abs().mean().backward()
+
+
+@pytest.mark.parametrize("input_dim", [5])
+@pytest.mark.parametrize("rnn_type", ["blstm"])
+@pytest.mark.parametrize("layer", [1, 3])
+@pytest.mark.parametrize("unit", [8])
+@pytest.mark.parametrize("dropout", [0.0, 0.2])
+@pytest.mark.parametrize("num_spk", [1, 2])
+@pytest.mark.parametrize("emb_D", [40])
+@pytest.mark.parametrize("nonlinear", ["relu", "sigmoid", "tanh"])
+def test_dpcl_separator_forward_backward_real(
+    input_dim, rnn_type, layer, unit, dropout, num_spk, emb_D, nonlinear
+):
+    model = DPCLSeparator(
+        input_dim=input_dim,
+        rnn_type=rnn_type,
+        layer=layer,
+        unit=unit,
+        dropout=dropout,
+        num_spk=num_spk,
+        emb_D=emb_D,
+        nonlinear=nonlinear,
+    )
+    model.train()
+
+    x = torch.rand(2, 10, input_dim)
+    x_lens = torch.tensor([10, 8], dtype=torch.long)
+
+    masked, flens, others = model(x, ilens=x_lens)
+
+    assert "tf_embedding" in others
+
+    others["tf_embedding"].abs().mean().backward()
+
+
+def test_dpcl_separator_invalid_type():
+    with pytest.raises(ValueError):
+        DPCLSeparator(
+            input_dim=10,
+            rnn_type="rnn",
+            layer=2,
+            unit=10,
+            dropout=0.1,
+            num_spk=2,
+            emb_D=40,
+            nonlinear="fff",
+        )
+
+
+def test_dpcl_separator_output():
+
+    x = torch.rand(2, 10, 10)
+    x_lens = torch.tensor([10, 8], dtype=torch.long)
+
+    for num_spk in range(1, 4):
+        model = DPCLSeparator(
+            input_dim=10,
+            rnn_type="rnn",
+            layer=2,
+            unit=10,
+            dropout=0.1,
+            num_spk=num_spk,
+            emb_D=40,
+            nonlinear="relu",
+        )
+        model.eval()
+        specs, _, others = model(x, x_lens)
+        assert isinstance(specs, list)
+        assert isinstance(others, dict)
+        assert len(specs) == num_spk, len(specs)
+        for n in range(num_spk):
+            assert "tf_embedding" in others
diff --git a/test/espnet2/enh/separator/test_dprnn_separator.py b/test/espnet2/enh/separator/test_dprnn_separator.py
index 24b653d562a..e4441b20650 100644
--- a/test/espnet2/enh/separator/test_dprnn_separator.py
+++ b/test/espnet2/enh/separator/test_dprnn_separator.py
@@ -1,5 +1,4 @@
 import pytest
-
 import torch
 from torch import Tensor
 from torch_complex import ComplexTensor
diff --git a/test/espnet2/enh/separator/test_fasnet_separator.py b/test/espnet2/enh/separator/test_fasnet_separator.py
index 603dc9ce680..bfe21aaed38 100644
--- a/test/espnet2/enh/separator/test_fasnet_separator.py
+++ b/test/espnet2/enh/separator/test_fasnet_separator.py
@@ -1,5 +1,4 @@
 import pytest
-
 import torch
 from torch import Tensor
 
diff --git a/test/espnet2/enh/separator/test_rnn_separator.py b/test/espnet2/enh/separator/test_rnn_separator.py
index 0371ffed0bf..62478c300f0 100644
--- a/test/espnet2/enh/separator/test_rnn_separator.py
+++ b/test/espnet2/enh/separator/test_rnn_separator.py
@@ -1,5 +1,4 @@
 import pytest
-
 import torch
 from torch import Tensor
 from torch_complex import ComplexTensor
diff --git a/test/espnet2/enh/separator/test_skim_separator.py b/test/espnet2/enh/separator/test_skim_separator.py
index e1594cd5620..ce21e4254b9 100644
--- a/test/espnet2/enh/separator/test_skim_separator.py
+++ b/test/espnet2/enh/separator/test_skim_separator.py
@@ -1,5 +1,4 @@
 import pytest
-
 import torch
 from torch import Tensor
 from torch_complex import ComplexTensor
diff --git a/test/espnet2/enh/separator/test_svoice_separator.py b/test/espnet2/enh/separator/test_svoice_separator.py
index b2fb191856c..45d79c0e3d0 100644
--- a/test/espnet2/enh/separator/test_svoice_separator.py
+++ b/test/espnet2/enh/separator/test_svoice_separator.py
@@ -1,5 +1,4 @@
 import pytest
-
 import torch
 from torch import Tensor
 
diff --git a/test/espnet2/enh/separator/test_tcn_separator.py b/test/espnet2/enh/separator/test_tcn_separator.py
index f2babeda466..380f858d180 100644
--- a/test/espnet2/enh/separator/test_tcn_separator.py
+++ b/test/espnet2/enh/separator/test_tcn_separator.py
@@ -1,5 +1,4 @@
 import pytest
-
 import torch
 from torch import Tensor
 from torch_complex import ComplexTensor
diff --git a/test/espnet2/enh/separator/test_transformer_separator.py b/test/espnet2/enh/separator/test_transformer_separator.py
index 474bbff14f5..2dfa6a346d3 100644
--- a/test/espnet2/enh/separator/test_transformer_separator.py
+++ b/test/espnet2/enh/separator/test_transformer_separator.py
@@ -1,5 +1,4 @@
 import pytest
-
 import torch
 from torch import Tensor
 from torch_complex import ComplexTensor
diff --git a/test/espnet2/enh/test_espnet_enh_s2t_model.py b/test/espnet2/enh/test_espnet_enh_s2t_model.py
index 5f7df398130..383376c5104 100644
--- a/test/espnet2/enh/test_espnet_enh_s2t_model.py
+++ b/test/espnet2/enh/test_espnet_enh_s2t_model.py
@@ -14,7 +14,6 @@
 from espnet2.enh.loss.wrappers.fixed_order import FixedOrderSolver
 from espnet2.enh.separator.rnn_separator import RNNSeparator
 
-
 enh_stft_encoder = STFTEncoder(
     n_fft=32,
     hop_length=16,
diff --git a/test/espnet2/enh/test_espnet_model.py b/test/espnet2/enh/test_espnet_model.py
index 6985ab63e36..482d6d4a679 100644
--- a/test/espnet2/enh/test_espnet_model.py
+++ b/test/espnet2/enh/test_espnet_model.py
@@ -1,7 +1,6 @@
-from distutils.version import LooseVersion
-
 import pytest
 import torch
+from packaging.version import parse as V
 
 from espnet2.enh.decoder.conv_decoder import ConvDecoder
 from espnet2.enh.decoder.null_decoder import NullDecoder
@@ -10,8 +9,7 @@
 from espnet2.enh.encoder.null_encoder import NullEncoder
 from espnet2.enh.encoder.stft_encoder import STFTEncoder
 from espnet2.enh.espnet_model import ESPnetEnhancementModel
-from espnet2.enh.loss.criterions.tf_domain import FrequencyDomainL1
-from espnet2.enh.loss.criterions.tf_domain import FrequencyDomainMSE
+from espnet2.enh.loss.criterions.tf_domain import FrequencyDomainL1, FrequencyDomainMSE
 from espnet2.enh.loss.criterions.time_domain import SISNRLoss
 from espnet2.enh.loss.wrappers.fixed_order import FixedOrderSolver
 from espnet2.enh.loss.wrappers.multilayer_pit_solver import MultiLayerPITSolver
@@ -25,8 +23,7 @@
 from espnet2.enh.separator.tcn_separator import TCNSeparator
 from espnet2.enh.separator.transformer_separator import TransformerSeparator
 
-
-is_torch_1_9_plus = LooseVersion(torch.__version__) >= LooseVersion("1.9.0")
+is_torch_1_9_plus = V(torch.__version__) >= V("1.9.0")
 
 
 stft_encoder = STFTEncoder(
diff --git a/test/espnet2/fileio/test_npy_scp.py b/test/espnet2/fileio/test_npy_scp.py
index 4f81b68ed64..f867a25bd53 100644
--- a/test/espnet2/fileio/test_npy_scp.py
+++ b/test/espnet2/fileio/test_npy_scp.py
@@ -3,10 +3,8 @@
 import numpy as np
 import pytest
 
-from espnet2.fileio.npy_scp import NpyScpReader
-from espnet2.fileio.npy_scp import NpyScpWriter
-from espnet2.fileio.sound_scp import SoundScpReader
-from espnet2.fileio.sound_scp import SoundScpWriter
+from espnet2.fileio.npy_scp import NpyScpReader, NpyScpWriter
+from espnet2.fileio.sound_scp import SoundScpReader, SoundScpWriter
 
 
 def test_NpyScpReader(tmp_path: Path):
diff --git a/test/espnet2/fileio/test_read_text.py b/test/espnet2/fileio/test_read_text.py
index feace34bdf7..ffd3a81259a 100644
--- a/test/espnet2/fileio/test_read_text.py
+++ b/test/espnet2/fileio/test_read_text.py
@@ -3,8 +3,7 @@
 import numpy as np
 import pytest
 
-from espnet2.fileio.read_text import load_num_sequence_text
-from espnet2.fileio.read_text import read_2column_text
+from espnet2.fileio.read_text import load_num_sequence_text, read_2column_text
 
 
 def test_read_2column_text(tmp_path: Path):
diff --git a/test/espnet2/gan_tts/hifigan/test_hifigan.py b/test/espnet2/gan_tts/hifigan/test_hifigan.py
index 1bfc7308103..a71f77fd84c 100644
--- a/test/espnet2/gan_tts/hifigan/test_hifigan.py
+++ b/test/espnet2/gan_tts/hifigan/test_hifigan.py
@@ -7,12 +7,16 @@
 import pytest
 import torch
 
-from espnet2.gan_tts.hifigan import HiFiGANGenerator
-from espnet2.gan_tts.hifigan import HiFiGANMultiScaleMultiPeriodDiscriminator
-from espnet2.gan_tts.hifigan.loss import DiscriminatorAdversarialLoss
-from espnet2.gan_tts.hifigan.loss import FeatureMatchLoss
-from espnet2.gan_tts.hifigan.loss import GeneratorAdversarialLoss
-from espnet2.gan_tts.hifigan.loss import MelSpectrogramLoss
+from espnet2.gan_tts.hifigan import (
+    HiFiGANGenerator,
+    HiFiGANMultiScaleMultiPeriodDiscriminator,
+)
+from espnet2.gan_tts.hifigan.loss import (
+    DiscriminatorAdversarialLoss,
+    FeatureMatchLoss,
+    GeneratorAdversarialLoss,
+    MelSpectrogramLoss,
+)
 
 
 def make_hifigan_generator_args(**kwargs):
diff --git a/test/espnet2/gan_tts/jets/test_jets.py b/test/espnet2/gan_tts/jets/test_jets.py
new file mode 100644
index 00000000000..f03b09e3769
--- /dev/null
+++ b/test/espnet2/gan_tts/jets/test_jets.py
@@ -0,0 +1,944 @@
+# Copyright 2022 Dan Lim
+#  Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
+
+"""Test JETS related modules."""
+
+import pytest
+import torch
+
+from espnet2.gan_tts.jets import JETS
+
+
+def make_jets_generator_args(**kwargs):
+    defaults = dict(
+        generator_type="jets_generator",
+        generator_params={
+            "idim": 10,
+            "odim": 5,
+            "adim": 4,
+            "aheads": 2,
+            "elayers": 1,
+            "eunits": 4,
+            "dlayers": 1,
+            "dunits": 4,
+            "positionwise_layer_type": "conv1d",
+            "positionwise_conv_kernel_size": 1,
+            "use_scaled_pos_enc": True,
+            "use_batch_norm": True,
+            "encoder_normalize_before": True,
+            "decoder_normalize_before": True,
+            "encoder_concat_after": False,
+            "decoder_concat_after": False,
+            "reduction_factor": 1,
+            "encoder_type": "transformer",
+            "decoder_type": "transformer",
+            "transformer_enc_dropout_rate": 0.1,
+            "transformer_enc_positional_dropout_rate": 0.1,
+            "transformer_enc_attn_dropout_rate": 0.1,
+            "transformer_dec_dropout_rate": 0.1,
+            "transformer_dec_positional_dropout_rate": 0.1,
+            "transformer_dec_attn_dropout_rate": 0.1,
+            "conformer_rel_pos_type": "legacy",
+            "conformer_pos_enc_layer_type": "rel_pos",
+            "conformer_self_attn_layer_type": "rel_selfattn",
+            "conformer_activation_type": "swish",
+            "use_macaron_style_in_conformer": True,
+            "use_cnn_in_conformer": True,
+            "zero_triu": False,
+            "conformer_enc_kernel_size": 3,
+            "conformer_dec_kernel_size": 3,
+            "duration_predictor_layers": 2,
+            "duration_predictor_chans": 4,
+            "duration_predictor_kernel_size": 3,
+            "duration_predictor_dropout_rate": 0.1,
+            "energy_predictor_layers": 2,
+            "energy_predictor_chans": 4,
+            "energy_predictor_kernel_size": 3,
+            "energy_predictor_dropout": 0.5,
+            "energy_embed_kernel_size": 3,
+            "energy_embed_dropout": 0.5,
+            "stop_gradient_from_energy_predictor": False,
+            "pitch_predictor_layers": 2,
+            "pitch_predictor_chans": 4,
+            "pitch_predictor_kernel_size": 3,
+            "pitch_predictor_dropout": 0.5,
+            "pitch_embed_kernel_size": 3,
+            "pitch_embed_dropout": 0.5,
+            "stop_gradient_from_pitch_predictor": False,
+            "spks": None,
+            "langs": None,
+            "spk_embed_dim": None,
+            "spk_embed_integration_type": "add",
+            "use_gst": False,
+            "gst_tokens": 10,
+            "gst_heads": 4,
+            "gst_conv_layers": 2,
+            "gst_conv_chans_list": (3, 3, 6, 6, 12, 12),
+            "gst_conv_kernel_size": 3,
+            "gst_conv_stride": 2,
+            "gst_gru_layers": 1,
+            "gst_gru_units": 8,
+            "init_type": "xavier_uniform",
+            "init_enc_alpha": 1.0,
+            "init_dec_alpha": 1.0,
+            "use_masking": False,
+            "use_weighted_masking": False,
+            "segment_size": 4,
+            "generator_out_channels": 1,
+            "generator_channels": 16,
+            "generator_global_channels": -1,
+            "generator_kernel_size": 7,
+            "generator_upsample_scales": [16, 16],
+            "generator_upsample_kernel_sizes": [32, 32],
+            "generator_resblock_kernel_sizes": [3, 3],
+            "generator_resblock_dilations": [
+                [1, 3],
+                [1, 3],
+            ],
+            "generator_use_additional_convs": True,
+            "generator_bias": True,
+            "generator_nonlinear_activation": "LeakyReLU",
+            "generator_nonlinear_activation_params": {"negative_slope": 0.1},
+            "generator_use_weight_norm": True,
+        },
+    )
+    defaults.update(kwargs)
+    return defaults
+
+
+def make_jets_discriminator_args(**kwargs):
+    defaults = dict(
+        discriminator_type="hifigan_multi_scale_multi_period_discriminator",
+        discriminator_params={
+            "scales": 1,
+            "scale_downsample_pooling": "AvgPool1d",
+            "scale_downsample_pooling_params": {
+                "kernel_size": 4,
+                "stride": 2,
+                "padding": 2,
+            },
+            "scale_discriminator_params": {
+                "in_channels": 1,
+                "out_channels": 1,
+                "kernel_sizes": [15, 41, 5, 3],
+                "channels": 16,
+                "max_downsample_channels": 32,
+                "max_groups": 16,
+                "bias": True,
+                "downsample_scales": [2, 1],
+                "nonlinear_activation": "LeakyReLU",
+                "nonlinear_activation_params": {"negative_slope": 0.1},
+            },
+            "follow_official_norm": False,
+            "periods": [2, 3],
+            "period_discriminator_params": {
+                "in_channels": 1,
+                "out_channels": 1,
+                "kernel_sizes": [5, 3],
+                "channels": 4,
+                "downsample_scales": [3, 1],
+                "max_downsample_channels": 16,
+                "bias": True,
+                "nonlinear_activation": "LeakyReLU",
+                "nonlinear_activation_params": {"negative_slope": 0.1},
+                "use_weight_norm": True,
+                "use_spectral_norm": False,
+            },
+        },
+    )
+    defaults.update(kwargs)
+    return defaults
+
+
+def make_jets_loss_args(**kwargs):
+    defaults = dict(
+        lambda_adv=1.0,
+        lambda_mel=45.0,
+        lambda_feat_match=2.0,
+        lambda_var=1.0,
+        lambda_align=2.0,
+        generator_adv_loss_params={
+            "average_by_discriminators": False,
+            "loss_type": "mse",
+        },
+        discriminator_adv_loss_params={
+            "average_by_discriminators": False,
+            "loss_type": "mse",
+        },
+        feat_match_loss_params={
+            "average_by_discriminators": False,
+            "average_by_layers": False,
+            "include_final_outputs": True,
+        },
+        mel_loss_params={
+            "fs": 22050,
+            "n_fft": 1024,
+            "hop_length": 256,
+            "win_length": None,
+            "window": "hann",
+            "n_mels": 80,
+            "fmin": 0,
+            "fmax": None,
+            "log_base": None,
+        },
+    )
+    defaults.update(kwargs)
+    return defaults
+
+
+# NOTE(kan-bayashi): first forward requires jit compile
+#   so a little bit more time is needed to run. Therefore,
+#   here we extend execution timeout from 2 sec to 8 sec.
+@pytest.mark.execution_timeout(8)
+@pytest.mark.skipif(
+    "1.6" in torch.__version__,
+    reason="group conv in pytorch 1.6 has an issue. "
+    "See https://github.com/pytorch/pytorch/issues/42446.",
+)
+@pytest.mark.parametrize(
+    "gen_dict, dis_dict, loss_dict",
+    [
+        ({}, {}, {}),
+        ({}, {}, {"cache_generator_outputs": True}),
+        (
+            {},
+            {
+                "discriminator_type": "hifigan_multi_scale_discriminator",
+                "discriminator_params": {
+                    "scales": 2,
+                    "downsample_pooling": "AvgPool1d",
+                    "downsample_pooling_params": {
+                        "kernel_size": 4,
+                        "stride": 2,
+                        "padding": 2,
+                    },
+                    "discriminator_params": {
+                        "in_channels": 1,
+                        "out_channels": 1,
+                        "kernel_sizes": [15, 41, 5, 3],
+                        "channels": 16,
+                        "max_downsample_channels": 32,
+                        "max_groups": 16,
+                        "bias": True,
+                        "downsample_scales": [2, 2, 1],
+                        "nonlinear_activation": "LeakyReLU",
+                        "nonlinear_activation_params": {"negative_slope": 0.1},
+                    },
+                },
+            },
+            {},
+        ),
+        (
+            {},
+            {
+                "discriminator_type": "hifigan_multi_period_discriminator",
+                "discriminator_params": {
+                    "periods": [2, 3],
+                    "discriminator_params": {
+                        "in_channels": 1,
+                        "out_channels": 1,
+                        "kernel_sizes": [5, 3],
+                        "channels": 16,
+                        "downsample_scales": [3, 3, 1],
+                        "max_downsample_channels": 32,
+                        "bias": True,
+                        "nonlinear_activation": "LeakyReLU",
+                        "nonlinear_activation_params": {"negative_slope": 0.1},
+                        "use_weight_norm": True,
+                        "use_spectral_norm": False,
+                    },
+                },
+            },
+            {},
+        ),
+        (
+            {},
+            {},
+            {
+                "generator_adv_loss_params": {
+                    "average_by_discriminators": True,
+                    "loss_type": "mse",
+                },
+                "discriminator_adv_loss_params": {
+                    "average_by_discriminators": True,
+                    "loss_type": "mse",
+                },
+            },
+        ),
+        (
+            {},
+            {},
+            {
+                "generator_adv_loss_params": {
+                    "average_by_discriminators": False,
+                    "loss_type": "hinge",
+                },
+                "discriminator_adv_loss_params": {
+                    "average_by_discriminators": False,
+                    "loss_type": "hinge",
+                },
+            },
+        ),
+    ],
+)
+def test_jets_is_trainable_and_decodable(gen_dict, dis_dict, loss_dict):
+    idim = 10
+    odim = 5
+    gen_args = make_jets_generator_args(**gen_dict)
+    dis_args = make_jets_discriminator_args(**dis_dict)
+    loss_args = make_jets_loss_args(**loss_dict)
+    model = JETS(
+        idim=idim,
+        odim=odim,
+        **gen_args,
+        **dis_args,
+        **loss_args,
+    )
+    model.train()
+    upsample_factor = model.generator.upsample_factor
+    inputs = dict(
+        text=torch.randint(0, idim, (2, 8)),
+        text_lengths=torch.tensor([8, 5], dtype=torch.long),
+        feats=torch.randn(2, 16, odim),
+        feats_lengths=torch.tensor([16, 13], dtype=torch.long),
+        speech=torch.randn(2, 16 * upsample_factor),
+        speech_lengths=torch.tensor([16, 13] * upsample_factor, dtype=torch.long),
+        pitch=torch.randn(2, 16, 1),
+        pitch_lengths=torch.tensor([16, 13], dtype=torch.long),
+        energy=torch.randn(2, 16, 1),
+        energy_lengths=torch.tensor([16, 13], dtype=torch.long),
+    )
+    gen_loss = model(forward_generator=True, **inputs)["loss"]
+    gen_loss.backward()
+    dis_loss = model(forward_generator=False, **inputs)["loss"]
+    dis_loss.backward()
+
+    with torch.no_grad():
+        model.eval()
+
+        # check inference
+        inputs = dict(
+            text=torch.randint(
+                0,
+                idim,
+                (5,),
+            )
+        )
+        model.inference(**inputs)
+
+        # check inference with teachder forcing
+        inputs = dict(
+            text=torch.randint(
+                0,
+                idim,
+                (5,),
+            ),
+            feats=torch.randn(16, odim),
+            pitch=torch.randn(16, 1),
+            energy=torch.randn(16, 1),
+        )
+        output_dict = model.inference(**inputs, use_teacher_forcing=True)
+        assert output_dict["wav"].size(0) == inputs["feats"].size(0) * upsample_factor
+
+
+@pytest.mark.skipif(
+    "1.6" in torch.__version__,
+    reason="Group conv in pytorch 1.6 has an issue. "
+    "See https://github.com/pytorch/pytorch/issues/42446.",
+)
+@pytest.mark.parametrize(
+    "gen_dict, dis_dict, loss_dict,",
+    [
+        ({}, {}, {}),
+        ({}, {}, {"cache_generator_outputs": True}),
+        (
+            {},
+            {
+                "discriminator_type": "hifigan_multi_scale_discriminator",
+                "discriminator_params": {
+                    "scales": 2,
+                    "downsample_pooling": "AvgPool1d",
+                    "downsample_pooling_params": {
+                        "kernel_size": 4,
+                        "stride": 2,
+                        "padding": 2,
+                    },
+                    "discriminator_params": {
+                        "in_channels": 1,
+                        "out_channels": 1,
+                        "kernel_sizes": [15, 41, 5, 3],
+                        "channels": 16,
+                        "max_downsample_channels": 32,
+                        "max_groups": 16,
+                        "bias": True,
+                        "downsample_scales": [2, 2, 1],
+                        "nonlinear_activation": "LeakyReLU",
+                        "nonlinear_activation_params": {"negative_slope": 0.1},
+                    },
+                },
+            },
+            {},
+        ),
+        (
+            {},
+            {
+                "discriminator_type": "hifigan_multi_period_discriminator",
+                "discriminator_params": {
+                    "periods": [2, 3],
+                    "discriminator_params": {
+                        "in_channels": 1,
+                        "out_channels": 1,
+                        "kernel_sizes": [5, 3],
+                        "channels": 16,
+                        "downsample_scales": [3, 3, 1],
+                        "max_downsample_channels": 32,
+                        "bias": True,
+                        "nonlinear_activation": "LeakyReLU",
+                        "nonlinear_activation_params": {"negative_slope": 0.1},
+                        "use_weight_norm": True,
+                        "use_spectral_norm": False,
+                    },
+                },
+            },
+            {},
+        ),
+        (
+            {},
+            {},
+            {
+                "generator_adv_loss_params": {
+                    "average_by_discriminators": True,
+                    "loss_type": "mse",
+                },
+                "discriminator_adv_loss_params": {
+                    "average_by_discriminators": True,
+                    "loss_type": "mse",
+                },
+            },
+        ),
+        (
+            {},
+            {},
+            {
+                "generator_adv_loss_params": {
+                    "average_by_discriminators": False,
+                    "loss_type": "hinge",
+                },
+                "discriminator_adv_loss_params": {
+                    "average_by_discriminators": False,
+                    "loss_type": "hinge",
+                },
+            },
+        ),
+    ],
+)
+@pytest.mark.parametrize(
+    "spks, spk_embed_dim, langs", [(10, -1, -1), (-1, 5, -1), (-1, -1, 3), (4, 5, 3)]
+)
+def test_multi_speaker_jets_is_trainable_and_decodable(
+    gen_dict, dis_dict, loss_dict, spks, spk_embed_dim, langs
+):
+    idim = 10
+    odim = 5
+    gen_args = make_jets_generator_args(**gen_dict)
+    gen_args["generator_params"]["spks"] = spks
+    gen_args["generator_params"]["langs"] = langs
+    gen_args["generator_params"]["spk_embed_dim"] = spk_embed_dim
+    dis_args = make_jets_discriminator_args(**dis_dict)
+    loss_args = make_jets_loss_args(**loss_dict)
+    model = JETS(
+        idim=idim,
+        odim=odim,
+        **gen_args,
+        **dis_args,
+        **loss_args,
+    )
+    model.train()
+    upsample_factor = model.generator.upsample_factor
+    inputs = dict(
+        text=torch.randint(0, idim, (2, 8)),
+        text_lengths=torch.tensor([8, 5], dtype=torch.long),
+        feats=torch.randn(2, 16, odim),
+        feats_lengths=torch.tensor([16, 13], dtype=torch.long),
+        speech=torch.randn(2, 16 * upsample_factor),
+        speech_lengths=torch.tensor([16, 13] * upsample_factor, dtype=torch.long),
+        pitch=torch.randn(2, 16, 1),
+        pitch_lengths=torch.tensor([16, 13], dtype=torch.long),
+        energy=torch.randn(2, 16, 1),
+        energy_lengths=torch.tensor([16, 13], dtype=torch.long),
+    )
+    if spks > 0:
+        inputs["sids"] = torch.randint(0, spks, (2, 1))
+    if langs > 0:
+        inputs["lids"] = torch.randint(0, langs, (2, 1))
+    if spk_embed_dim > 0:
+        inputs["spembs"] = torch.randn(2, spk_embed_dim)
+    gen_loss = model(forward_generator=True, **inputs)["loss"]
+    gen_loss.backward()
+    dis_loss = model(forward_generator=False, **inputs)["loss"]
+    dis_loss.backward()
+
+    with torch.no_grad():
+        model.eval()
+
+        # check inference
+        inputs = dict(
+            text=torch.randint(
+                0,
+                idim,
+                (5,),
+            ),
+        )
+        if spks > 0:
+            inputs["sids"] = torch.randint(0, spks, (1,))
+        if langs > 0:
+            inputs["lids"] = torch.randint(0, langs, (1,))
+        if spk_embed_dim > 0:
+            inputs["spembs"] = torch.randn(spk_embed_dim)
+        model.inference(**inputs)
+
+        # check inference with teacher forcing
+        inputs = dict(
+            text=torch.randint(
+                0,
+                idim,
+                (5,),
+            ),
+            feats=torch.randn(16, odim),
+            pitch=torch.randn(16, 1),
+            energy=torch.randn(16, 1),
+        )
+        if spks > 0:
+            inputs["sids"] = torch.randint(0, spks, (1,))
+        if langs > 0:
+            inputs["lids"] = torch.randint(0, langs, (1,))
+        if spk_embed_dim > 0:
+            inputs["spembs"] = torch.randn(spk_embed_dim)
+        output_dict = model.inference(**inputs, use_teacher_forcing=True)
+        assert output_dict["wav"].size(0) == inputs["feats"].size(0) * upsample_factor
+
+
+@pytest.mark.skipif(
+    not torch.cuda.is_available(),
+    reason="GPU is needed.",
+)
+@pytest.mark.skipif(
+    "1.6" in torch.__version__,
+    reason="group conv in pytorch 1.6 has an issue. "
+    "See https://github.com/pytorch/pytorch/issues/42446.",
+)
+@pytest.mark.parametrize(
+    "gen_dict, dis_dict, loss_dict",
+    [
+        ({}, {}, {}),
+        ({}, {}, {"cache_generator_outputs": True}),
+        (
+            {},
+            {
+                "discriminator_type": "hifigan_multi_scale_discriminator",
+                "discriminator_params": {
+                    "scales": 2,
+                    "downsample_pooling": "AvgPool1d",
+                    "downsample_pooling_params": {
+                        "kernel_size": 4,
+                        "stride": 2,
+                        "padding": 2,
+                    },
+                    "discriminator_params": {
+                        "in_channels": 1,
+                        "out_channels": 1,
+                        "kernel_sizes": [15, 41, 5, 3],
+                        "channels": 16,
+                        "max_downsample_channels": 32,
+                        "max_groups": 16,
+                        "bias": True,
+                        "downsample_scales": [2, 2, 1],
+                        "nonlinear_activation": "LeakyReLU",
+                        "nonlinear_activation_params": {"negative_slope": 0.1},
+                    },
+                },
+            },
+            {},
+        ),
+        (
+            {},
+            {
+                "discriminator_type": "hifigan_multi_period_discriminator",
+                "discriminator_params": {
+                    "periods": [2, 3],
+                    "discriminator_params": {
+                        "in_channels": 1,
+                        "out_channels": 1,
+                        "kernel_sizes": [5, 3],
+                        "channels": 16,
+                        "downsample_scales": [3, 3, 1],
+                        "max_downsample_channels": 32,
+                        "bias": True,
+                        "nonlinear_activation": "LeakyReLU",
+                        "nonlinear_activation_params": {"negative_slope": 0.1},
+                        "use_weight_norm": True,
+                        "use_spectral_norm": False,
+                    },
+                },
+            },
+            {},
+        ),
+        (
+            {},
+            {
+                "discriminator_type": "hifigan_period_discriminator",
+                "discriminator_params": {
+                    "period": 2,
+                    "in_channels": 1,
+                    "out_channels": 1,
+                    "kernel_sizes": [5, 3],
+                    "channels": 16,
+                    "downsample_scales": [3, 3, 1],
+                    "max_downsample_channels": 32,
+                    "bias": True,
+                    "nonlinear_activation": "LeakyReLU",
+                    "nonlinear_activation_params": {"negative_slope": 0.1},
+                    "use_weight_norm": True,
+                    "use_spectral_norm": False,
+                },
+            },
+            {},
+        ),
+        (
+            {},
+            {
+                "discriminator_type": "hifigan_scale_discriminator",
+                "discriminator_params": {
+                    "in_channels": 1,
+                    "out_channels": 1,
+                    "kernel_sizes": [15, 41, 5, 3],
+                    "channels": 16,
+                    "max_downsample_channels": 32,
+                    "max_groups": 16,
+                    "bias": True,
+                    "downsample_scales": [2, 2, 1],
+                    "nonlinear_activation": "LeakyReLU",
+                    "nonlinear_activation_params": {"negative_slope": 0.1},
+                },
+            },
+            {},
+        ),
+        (
+            {},
+            {},
+            {
+                "generator_adv_loss_params": {
+                    "average_by_discriminators": True,
+                    "loss_type": "mse",
+                },
+                "discriminator_adv_loss_params": {
+                    "average_by_discriminators": True,
+                    "loss_type": "mse",
+                },
+            },
+        ),
+        (
+            {},
+            {},
+            {
+                "generator_adv_loss_params": {
+                    "average_by_discriminators": False,
+                    "loss_type": "hinge",
+                },
+                "discriminator_adv_loss_params": {
+                    "average_by_discriminators": False,
+                    "loss_type": "hinge",
+                },
+            },
+        ),
+    ],
+)
+def test_jets_is_trainable_and_decodable_on_gpu(gen_dict, dis_dict, loss_dict):
+    idim = 10
+    odim = 5
+    gen_args = make_jets_generator_args(**gen_dict)
+    dis_args = make_jets_discriminator_args(**dis_dict)
+    loss_args = make_jets_loss_args(**loss_dict)
+    model = JETS(
+        idim=idim,
+        odim=odim,
+        **gen_args,
+        **dis_args,
+        **loss_args,
+    )
+    model.train()
+    upsample_factor = model.generator.upsample_factor
+    inputs = dict(
+        text=torch.randint(0, idim, (2, 8)),
+        text_lengths=torch.tensor([8, 5], dtype=torch.long),
+        feats=torch.randn(2, 16, odim),
+        feats_lengths=torch.tensor([16, 13], dtype=torch.long),
+        speech=torch.randn(2, 16 * upsample_factor),
+        speech_lengths=torch.tensor([16, 13] * upsample_factor, dtype=torch.long),
+        pitch=torch.randn(2, 16, 1),
+        pitch_lengths=torch.tensor([16, 13], dtype=torch.long),
+        energy=torch.randn(2, 16, 1),
+        energy_lengths=torch.tensor([16, 13], dtype=torch.long),
+    )
+    device = torch.device("cuda")
+    model.to(device)
+    inputs = {k: v.to(device) for k, v in inputs.items()}
+    gen_loss = model(forward_generator=True, **inputs)["loss"]
+    gen_loss.backward()
+    dis_loss = model(forward_generator=False, **inputs)["loss"]
+    dis_loss.backward()
+
+    with torch.no_grad():
+        model.eval()
+
+        # check inference
+        inputs = dict(
+            text=torch.randint(
+                0,
+                idim,
+                (5,),
+            )
+        )
+        inputs = {k: v.to(device) for k, v in inputs.items()}
+        model.inference(**inputs)
+
+        # check inference with teacher forcing
+        inputs = dict(
+            text=torch.randint(
+                0,
+                idim,
+                (5,),
+            ),
+            feats=torch.randn(16, odim),
+            pitch=torch.randn(16, 1),
+            energy=torch.randn(16, 1),
+        )
+        inputs = {k: v.to(device) for k, v in inputs.items()}
+        output_dict = model.inference(**inputs, use_teacher_forcing=True)
+        assert output_dict["wav"].size(0) == inputs["feats"].size(0) * upsample_factor
+
+
+@pytest.mark.skipif(
+    not torch.cuda.is_available(),
+    reason="GPU is needed.",
+)
+@pytest.mark.skipif(
+    "1.6" in torch.__version__,
+    reason="Group conv in pytorch 1.6 has an issue. "
+    "See https://github.com/pytorch/pytorch/issues/42446.",
+)
+@pytest.mark.parametrize(
+    "gen_dict, dis_dict, loss_dict",
+    [
+        ({}, {}, {}),
+        ({}, {}, {"cache_generator_outputs": True}),
+        (
+            {},
+            {
+                "discriminator_type": "hifigan_multi_scale_discriminator",
+                "discriminator_params": {
+                    "scales": 2,
+                    "downsample_pooling": "AvgPool1d",
+                    "downsample_pooling_params": {
+                        "kernel_size": 4,
+                        "stride": 2,
+                        "padding": 2,
+                    },
+                    "discriminator_params": {
+                        "in_channels": 1,
+                        "out_channels": 1,
+                        "kernel_sizes": [15, 41, 5, 3],
+                        "channels": 16,
+                        "max_downsample_channels": 32,
+                        "max_groups": 16,
+                        "bias": True,
+                        "downsample_scales": [2, 2, 1],
+                        "nonlinear_activation": "LeakyReLU",
+                        "nonlinear_activation_params": {"negative_slope": 0.1},
+                    },
+                },
+            },
+            {},
+        ),
+        (
+            {},
+            {
+                "discriminator_type": "hifigan_multi_period_discriminator",
+                "discriminator_params": {
+                    "periods": [2, 3],
+                    "discriminator_params": {
+                        "in_channels": 1,
+                        "out_channels": 1,
+                        "kernel_sizes": [5, 3],
+                        "channels": 16,
+                        "downsample_scales": [3, 3, 1],
+                        "max_downsample_channels": 32,
+                        "bias": True,
+                        "nonlinear_activation": "LeakyReLU",
+                        "nonlinear_activation_params": {"negative_slope": 0.1},
+                        "use_weight_norm": True,
+                        "use_spectral_norm": False,
+                    },
+                },
+            },
+            {},
+        ),
+        (
+            {},
+            {
+                "discriminator_type": "hifigan_period_discriminator",
+                "discriminator_params": {
+                    "period": 2,
+                    "in_channels": 1,
+                    "out_channels": 1,
+                    "kernel_sizes": [5, 3],
+                    "channels": 16,
+                    "downsample_scales": [3, 3, 1],
+                    "max_downsample_channels": 32,
+                    "bias": True,
+                    "nonlinear_activation": "LeakyReLU",
+                    "nonlinear_activation_params": {"negative_slope": 0.1},
+                    "use_weight_norm": True,
+                    "use_spectral_norm": False,
+                },
+            },
+            {},
+        ),
+        (
+            {},
+            {
+                "discriminator_type": "hifigan_scale_discriminator",
+                "discriminator_params": {
+                    "in_channels": 1,
+                    "out_channels": 1,
+                    "kernel_sizes": [15, 41, 5, 3],
+                    "channels": 16,
+                    "max_downsample_channels": 32,
+                    "max_groups": 16,
+                    "bias": True,
+                    "downsample_scales": [2, 2, 1],
+                    "nonlinear_activation": "LeakyReLU",
+                    "nonlinear_activation_params": {"negative_slope": 0.1},
+                },
+            },
+            {},
+        ),
+        (
+            {},
+            {},
+            {
+                "generator_adv_loss_params": {
+                    "average_by_discriminators": True,
+                    "loss_type": "mse",
+                },
+                "discriminator_adv_loss_params": {
+                    "average_by_discriminators": True,
+                    "loss_type": "mse",
+                },
+            },
+        ),
+        (
+            {},
+            {},
+            {
+                "generator_adv_loss_params": {
+                    "average_by_discriminators": False,
+                    "loss_type": "hinge",
+                },
+                "discriminator_adv_loss_params": {
+                    "average_by_discriminators": False,
+                    "loss_type": "hinge",
+                },
+            },
+        ),
+    ],
+)
+@pytest.mark.parametrize(
+    "spks, spk_embed_dim, langs", [(10, -1, -1), (-1, 5, -1), (-1, -1, 3), (4, 5, 3)]
+)
+def test_multi_speaker_jets_is_trainable_and_decodable_on_gpu(
+    gen_dict, dis_dict, loss_dict, spks, spk_embed_dim, langs
+):
+    idim = 10
+    odim = 5
+    gen_args = make_jets_generator_args(**gen_dict)
+    gen_args["generator_params"]["spks"] = spks
+    gen_args["generator_params"]["langs"] = langs
+    gen_args["generator_params"]["spk_embed_dim"] = spk_embed_dim
+    dis_args = make_jets_discriminator_args(**dis_dict)
+    loss_args = make_jets_loss_args(**loss_dict)
+    model = JETS(
+        idim=idim,
+        odim=odim,
+        **gen_args,
+        **dis_args,
+        **loss_args,
+    )
+    model.train()
+    upsample_factor = model.generator.upsample_factor
+    inputs = dict(
+        text=torch.randint(0, idim, (2, 8)),
+        text_lengths=torch.tensor([8, 5], dtype=torch.long),
+        feats=torch.randn(2, 16, odim),
+        feats_lengths=torch.tensor([16, 13], dtype=torch.long),
+        speech=torch.randn(2, 16 * upsample_factor),
+        speech_lengths=torch.tensor([16, 13] * upsample_factor, dtype=torch.long),
+        pitch=torch.randn(2, 16, 1),
+        pitch_lengths=torch.tensor([16, 13], dtype=torch.long),
+        energy=torch.randn(2, 16, 1),
+        energy_lengths=torch.tensor([16, 13], dtype=torch.long),
+    )
+    if spks > 0:
+        inputs["sids"] = torch.randint(0, spks, (2, 1))
+    if langs > 0:
+        inputs["lids"] = torch.randint(0, langs, (2, 1))
+    if spk_embed_dim > 0:
+        inputs["spembs"] = torch.randn(2, spk_embed_dim)
+    device = torch.device("cuda")
+    model.to(device)
+    inputs = {k: v.to(device) for k, v in inputs.items()}
+    gen_loss = model(forward_generator=True, **inputs)["loss"]
+    gen_loss.backward()
+    dis_loss = model(forward_generator=False, **inputs)["loss"]
+    dis_loss.backward()
+
+    with torch.no_grad():
+        model.eval()
+
+        # check inference
+        inputs = dict(
+            text=torch.randint(
+                0,
+                idim,
+                (5,),
+            ),
+        )
+        if spks > 0:
+            inputs["sids"] = torch.randint(0, spks, (1,))
+        if langs > 0:
+            inputs["lids"] = torch.randint(0, langs, (1,))
+        if spk_embed_dim > 0:
+            inputs["spembs"] = torch.randn(spk_embed_dim)
+        inputs = {k: v.to(device) for k, v in inputs.items()}
+        model.inference(**inputs)
+
+        # check inference with teacher forcing
+        inputs = dict(
+            text=torch.randint(
+                0,
+                idim,
+                (5,),
+            ),
+            feats=torch.randn(16, odim),
+            pitch=torch.randn(16, 1),
+            energy=torch.randn(16, 1),
+        )
+        if spks > 0:
+            inputs["sids"] = torch.randint(0, spks, (1,))
+        if langs > 0:
+            inputs["lids"] = torch.randint(0, langs, (1,))
+        if spk_embed_dim > 0:
+            inputs["spembs"] = torch.randn(spk_embed_dim)
+        inputs = {k: v.to(device) for k, v in inputs.items()}
+        output_dict = model.inference(**inputs, use_teacher_forcing=True)
+        assert output_dict["wav"].size(0) == inputs["feats"].size(0) * upsample_factor
diff --git a/test/espnet2/gan_tts/joint/test_joint_text2wav.py b/test/espnet2/gan_tts/joint/test_joint_text2wav.py
index 1badd3a892f..a82b215afba 100644
--- a/test/espnet2/gan_tts/joint/test_joint_text2wav.py
+++ b/test/espnet2/gan_tts/joint/test_joint_text2wav.py
@@ -3,10 +3,9 @@
 
 """Test VITS related modules."""
 
-from distutils.version import LooseVersion
-
 import pytest
 import torch
+from packaging.version import parse as V
 
 from espnet2.gan_tts.joint import JointText2Wav
 
@@ -190,7 +189,7 @@ def make_loss_args(**kwargs):
 
 
 @pytest.mark.skipif(
-    LooseVersion(torch.__version__) < LooseVersion("1.4"),
+    V(torch.__version__) < V("1.4"),
     reason="Pytorch >= 1.4 is required.",
 )
 @pytest.mark.skipif(
diff --git a/test/espnet2/gan_tts/melgan/test_melgan.py b/test/espnet2/gan_tts/melgan/test_melgan.py
index 81d5874007b..1219565ee2f 100644
--- a/test/espnet2/gan_tts/melgan/test_melgan.py
+++ b/test/espnet2/gan_tts/melgan/test_melgan.py
@@ -7,11 +7,12 @@
 import pytest
 import torch
 
-from espnet2.gan_tts.hifigan.loss import DiscriminatorAdversarialLoss
-from espnet2.gan_tts.hifigan.loss import FeatureMatchLoss
-from espnet2.gan_tts.hifigan.loss import GeneratorAdversarialLoss
-from espnet2.gan_tts.melgan import MelGANGenerator
-from espnet2.gan_tts.melgan import MelGANMultiScaleDiscriminator
+from espnet2.gan_tts.hifigan.loss import (
+    DiscriminatorAdversarialLoss,
+    FeatureMatchLoss,
+    GeneratorAdversarialLoss,
+)
+from espnet2.gan_tts.melgan import MelGANGenerator, MelGANMultiScaleDiscriminator
 
 
 def make_melgan_generator_args(**kwargs):
diff --git a/test/espnet2/gan_tts/parallel_wavegan/test_parallel_wavegan.py b/test/espnet2/gan_tts/parallel_wavegan/test_parallel_wavegan.py
index 098ce45ea8c..d2b6c003df5 100644
--- a/test/espnet2/gan_tts/parallel_wavegan/test_parallel_wavegan.py
+++ b/test/espnet2/gan_tts/parallel_wavegan/test_parallel_wavegan.py
@@ -7,10 +7,14 @@
 import pytest
 import torch
 
-from espnet2.gan_tts.hifigan.loss import DiscriminatorAdversarialLoss
-from espnet2.gan_tts.hifigan.loss import GeneratorAdversarialLoss
-from espnet2.gan_tts.parallel_wavegan import ParallelWaveGANDiscriminator
-from espnet2.gan_tts.parallel_wavegan import ParallelWaveGANGenerator
+from espnet2.gan_tts.hifigan.loss import (
+    DiscriminatorAdversarialLoss,
+    GeneratorAdversarialLoss,
+)
+from espnet2.gan_tts.parallel_wavegan import (
+    ParallelWaveGANDiscriminator,
+    ParallelWaveGANGenerator,
+)
 
 
 def make_generator_args(**kwargs):
@@ -135,7 +139,7 @@ def test_parallel_wavegan_generator_and_discriminator(dict_g, dict_d):
 )
 def test_parallel_wavegan_compatibility():
     from parallel_wavegan.models import (
-        ParallelWaveGANGenerator as PWGParallelWaveGANGenerator,  # NOQA
+        ParallelWaveGANGenerator as PWGParallelWaveGANGenerator,
     )
 
     model_pwg = PWGParallelWaveGANGenerator(**make_generator_args())
diff --git a/test/espnet2/gan_tts/style_melgan/test_style_melgan.py b/test/espnet2/gan_tts/style_melgan/test_style_melgan.py
index 8f8f3f546f2..5291e4913f3 100644
--- a/test/espnet2/gan_tts/style_melgan/test_style_melgan.py
+++ b/test/espnet2/gan_tts/style_melgan/test_style_melgan.py
@@ -7,10 +7,11 @@
 import pytest
 import torch
 
-from espnet2.gan_tts.hifigan.loss import DiscriminatorAdversarialLoss
-from espnet2.gan_tts.hifigan.loss import GeneratorAdversarialLoss
-from espnet2.gan_tts.style_melgan import StyleMelGANDiscriminator
-from espnet2.gan_tts.style_melgan import StyleMelGANGenerator
+from espnet2.gan_tts.hifigan.loss import (
+    DiscriminatorAdversarialLoss,
+    GeneratorAdversarialLoss,
+)
+from espnet2.gan_tts.style_melgan import StyleMelGANDiscriminator, StyleMelGANGenerator
 
 
 def make_style_melgan_generator_args(**kwargs):
diff --git a/test/espnet2/gan_tts/vits/test_generator.py b/test/espnet2/gan_tts/vits/test_generator.py
index 7ac9f3f879e..9c17ed897ab 100644
--- a/test/espnet2/gan_tts/vits/test_generator.py
+++ b/test/espnet2/gan_tts/vits/test_generator.py
@@ -3,8 +3,6 @@
 
 """Test VITS generator modules."""
 
-from distutils.version import LooseVersion
-
 import pytest
 import torch
 
@@ -66,10 +64,6 @@ def make_generator_args(**kwargs):
 #   so a little bit more time is needed to run. Therefore,
 #   here we extend execution timeout from 2 sec to 5 sec.
 @pytest.mark.execution_timeout(5)
-@pytest.mark.skipif(
-    LooseVersion(torch.__version__) < LooseVersion("1.4"),
-    reason="Pytorch >= 1.4 is required.",
-)
 @pytest.mark.skipif(
     "1.6" in torch.__version__,
     reason="group conv in pytorch 1.6 has an issue. "
@@ -198,10 +192,6 @@ def test_vits_generator_forward(model_dict):
                 print(f"{i+j+1}: {output_.shape}")
 
 
-@pytest.mark.skipif(
-    LooseVersion(torch.__version__) < LooseVersion("1.4"),
-    reason="Pytorch >= 1.4 is required.",
-)
 @pytest.mark.skipif(
     "1.6" in torch.__version__,
     reason="group conv in pytorch 1.6 has an issue. "
diff --git a/test/espnet2/gan_tts/vits/test_vits.py b/test/espnet2/gan_tts/vits/test_vits.py
index a35d8c66bf1..e749345e346 100644
--- a/test/espnet2/gan_tts/vits/test_vits.py
+++ b/test/espnet2/gan_tts/vits/test_vits.py
@@ -3,8 +3,6 @@
 
 """Test VITS related modules."""
 
-from distutils.version import LooseVersion
-
 import pytest
 import torch
 
@@ -148,10 +146,6 @@ def make_vits_loss_args(**kwargs):
     return defaults
 
 
-@pytest.mark.skipif(
-    LooseVersion(torch.__version__) < LooseVersion("1.4"),
-    reason="Pytorch >= 1.4 is required.",
-)
 @pytest.mark.skipif(
     "1.6" in torch.__version__,
     reason="group conv in pytorch 1.6 has an issue. "
@@ -349,10 +343,6 @@ def test_vits_is_trainable_and_decodable(gen_dict, dis_dict, loss_dict):
         assert output_dict["wav"].size(0) == inputs["feats"].size(0) * upsample_factor
 
 
-@pytest.mark.skipif(
-    LooseVersion(torch.__version__) < LooseVersion("1.4"),
-    reason="Pytorch >= 1.4 is required.",
-)
 @pytest.mark.skipif(
     "1.6" in torch.__version__,
     reason="Group conv in pytorch 1.6 has an issue. "
@@ -588,10 +578,6 @@ def test_multi_speaker_vits_is_trainable_and_decodable(
     not torch.cuda.is_available(),
     reason="GPU is needed.",
 )
-@pytest.mark.skipif(
-    LooseVersion(torch.__version__) < LooseVersion("1.4"),
-    reason="Pytorch >= 1.4 is required.",
-)
 @pytest.mark.skipif(
     "1.6" in torch.__version__,
     reason="group conv in pytorch 1.6 has an issue. "
@@ -799,10 +785,6 @@ def test_vits_is_trainable_and_decodable_on_gpu(gen_dict, dis_dict, loss_dict):
     not torch.cuda.is_available(),
     reason="GPU is needed.",
 )
-@pytest.mark.skipif(
-    LooseVersion(torch.__version__) < LooseVersion("1.4"),
-    reason="Pytorch >= 1.4 is required.",
-)
 @pytest.mark.skipif(
     "1.6" in torch.__version__,
     reason="Group conv in pytorch 1.6 has an issue. "
diff --git a/test/espnet2/hubert/test_hubert_loss.py b/test/espnet2/hubert/test_hubert_loss.py
index f51aecafb1c..146755f0ad8 100644
--- a/test/espnet2/hubert/test_hubert_loss.py
+++ b/test/espnet2/hubert/test_hubert_loss.py
@@ -1,10 +1,10 @@
 import pytest
 import torch
 
-from espnet2.hubert.hubert_loss import HubertPretrainLoss  # noqa: H301
-from espnet2.asr.encoder.hubert_encoder import (
-    FairseqHubertPretrainEncoder,  # noqa: H301
+from espnet2.asr.encoder.hubert_encoder import (  # noqa: H301
+    FairseqHubertPretrainEncoder,
 )
+from espnet2.hubert.hubert_loss import HubertPretrainLoss  # noqa: H301
 
 pytest.importorskip("fairseq")
 
diff --git a/test/espnet2/iterators/test_chunk_iter_factory.py b/test/espnet2/iterators/test_chunk_iter_factory.py
index 5011dc8c3c5..74f51970c70 100644
--- a/test/espnet2/iterators/test_chunk_iter_factory.py
+++ b/test/espnet2/iterators/test_chunk_iter_factory.py
@@ -1,8 +1,8 @@
+import numpy as np
+
 from espnet2.iterators.chunk_iter_factory import ChunkIterFactory
 from espnet2.train.collate_fn import CommonCollateFn
 
-import numpy as np
-
 
 class Dataset:
     def __init__(self):
diff --git a/test/espnet2/layers/test_sinc_filters.py b/test/espnet2/layers/test_sinc_filters.py
index c6ee0244383..f1a3233b88f 100644
--- a/test/espnet2/layers/test_sinc_filters.py
+++ b/test/espnet2/layers/test_sinc_filters.py
@@ -1,9 +1,6 @@
 import torch
 
-from espnet2.layers.sinc_conv import BarkScale
-from espnet2.layers.sinc_conv import LogCompression
-from espnet2.layers.sinc_conv import MelScale
-from espnet2.layers.sinc_conv import SincConv
+from espnet2.layers.sinc_conv import BarkScale, LogCompression, MelScale, SincConv
 
 
 def test_log_compression():
diff --git a/test/espnet2/lm/test_seq_rnn_lm.py b/test/espnet2/lm/test_seq_rnn_lm.py
index 480b9d549b3..bedc8eb54c9 100644
--- a/test/espnet2/lm/test_seq_rnn_lm.py
+++ b/test/espnet2/lm/test_seq_rnn_lm.py
@@ -1,9 +1,9 @@
 import pytest
 import torch
 
+from espnet2.lm.seq_rnn_lm import SequentialRNNLM
 from espnet.nets.batch_beam_search import BatchBeamSearch
 from espnet.nets.beam_search import BeamSearch
-from espnet2.lm.seq_rnn_lm import SequentialRNNLM
 
 
 @pytest.mark.parametrize("rnn_type", ["LSTM", "GRU", "RNN_TANH", "RNN_RELU"])
diff --git a/test/espnet2/lm/test_transformer_lm.py b/test/espnet2/lm/test_transformer_lm.py
index 2f52785fc25..36adce59f88 100644
--- a/test/espnet2/lm/test_transformer_lm.py
+++ b/test/espnet2/lm/test_transformer_lm.py
@@ -1,9 +1,9 @@
 import pytest
 import torch
 
+from espnet2.lm.transformer_lm import TransformerLM
 from espnet.nets.batch_beam_search import BatchBeamSearch
 from espnet.nets.beam_search import BeamSearch
-from espnet2.lm.transformer_lm import TransformerLM
 
 
 @pytest.mark.parametrize("pos_enc", ["sinusoidal", None])
diff --git a/test/espnet2/main_funcs/test_calculate_all_attentions.py b/test/espnet2/main_funcs/test_calculate_all_attentions.py
index e33dbd303ef..aee181c1a85 100644
--- a/test/espnet2/main_funcs/test_calculate_all_attentions.py
+++ b/test/espnet2/main_funcs/test_calculate_all_attentions.py
@@ -4,11 +4,11 @@
 import pytest
 import torch
 
-from espnet.nets.pytorch_backend.rnn.attentions import AttAdd
-from espnet.nets.pytorch_backend.transformer.attention import MultiHeadedAttention
 from espnet2.asr.decoder.rnn_decoder import RNNDecoder
 from espnet2.main_funcs.calculate_all_attentions import calculate_all_attentions
 from espnet2.train.abs_espnet_model import AbsESPnetModel
+from espnet.nets.pytorch_backend.rnn.attentions import AttAdd
+from espnet.nets.pytorch_backend.transformer.attention import MultiHeadedAttention
 
 
 class Dummy(AbsESPnetModel):
diff --git a/test/espnet2/main_funcs/test_pack_funcs.py b/test/espnet2/main_funcs/test_pack_funcs.py
index 839a0e24e19..a733ad6e92b 100644
--- a/test/espnet2/main_funcs/test_pack_funcs.py
+++ b/test/espnet2/main_funcs/test_pack_funcs.py
@@ -1,12 +1,14 @@
-from pathlib import Path
 import tarfile
+from pathlib import Path
 
 import pytest
 import yaml
 
-from espnet2.main_funcs.pack_funcs import find_path_and_change_it_recursive
-from espnet2.main_funcs.pack_funcs import pack
-from espnet2.main_funcs.pack_funcs import unpack
+from espnet2.main_funcs.pack_funcs import (
+    find_path_and_change_it_recursive,
+    pack,
+    unpack,
+)
 
 
 def test_find_path_and_change_it_recursive():
diff --git a/test/espnet2/tasks/test_abs_task.py b/test/espnet2/tasks/test_abs_task.py
index 7a9297f78e2..6b36d3b51d1 100644
--- a/test/espnet2/tasks/test_abs_task.py
+++ b/test/espnet2/tasks/test_abs_task.py
@@ -8,7 +8,7 @@
 from espnet2.train.collate_fn import CommonCollateFn
 
 
-class TestModel(AbsESPnetModel):
+class DummyModel(AbsESPnetModel):
     def __init__(self):
         super().__init__()
         self.layer1 = torch.nn.Linear(1, 1)
@@ -60,7 +60,7 @@ def optional_data_names(cls, train=True, inference=False):
 
     @classmethod
     def build_model(cls, args):
-        model = TestModel()
+        model = DummyModel()
         return model
 
     @classmethod
diff --git a/test/espnet2/text/test_phoneme_tokenizer.py b/test/espnet2/text/test_phoneme_tokenizer.py
index 35ec36f22b4..d57e4fa0bd6 100644
--- a/test/espnet2/text/test_phoneme_tokenizer.py
+++ b/test/espnet2/text/test_phoneme_tokenizer.py
@@ -303,7 +303,7 @@ def test_text2tokens(phoneme_tokenizer: PhonemeTokenizer):
             "ei2",
             "uai4",
             "s",
-            "un1",
+            "uen1",
             "uan2",
             "h",
             "ua2",
diff --git a/test/espnet2/text/test_sentencepiece_tokenizer.py b/test/espnet2/text/test_sentencepiece_tokenizer.py
index 7baea4191f1..eabf741fdf3 100644
--- a/test/espnet2/text/test_sentencepiece_tokenizer.py
+++ b/test/espnet2/text/test_sentencepiece_tokenizer.py
@@ -1,5 +1,5 @@
-from pathlib import Path
 import string
+from pathlib import Path
 
 import pytest
 import sentencepiece as spm
diff --git a/test/espnet2/torch_utils/test_device_funcs.py b/test/espnet2/torch_utils/test_device_funcs.py
index 2ddce8de3d7..69b6274db17 100644
--- a/test/espnet2/torch_utils/test_device_funcs.py
+++ b/test/espnet2/torch_utils/test_device_funcs.py
@@ -4,8 +4,7 @@
 import pytest
 import torch
 
-from espnet2.torch_utils.device_funcs import force_gatherable
-from espnet2.torch_utils.device_funcs import to_device
+from espnet2.torch_utils.device_funcs import force_gatherable, to_device
 
 x = torch.tensor(10)
 
diff --git a/test/espnet2/train/test_collate_fn.py b/test/espnet2/train/test_collate_fn.py
index 8c69fcb9061..75841910824 100644
--- a/test/espnet2/train/test_collate_fn.py
+++ b/test/espnet2/train/test_collate_fn.py
@@ -1,8 +1,7 @@
 import numpy as np
 import pytest
 
-from espnet2.train.collate_fn import common_collate_fn
-from espnet2.train.collate_fn import CommonCollateFn
+from espnet2.train.collate_fn import CommonCollateFn, common_collate_fn
 
 
 @pytest.mark.parametrize(
diff --git a/test/espnet2/train/test_distributed_utils.py b/test/espnet2/train/test_distributed_utils.py
index c52fed773eb..965dc2dfc71 100644
--- a/test/espnet2/train/test_distributed_utils.py
+++ b/test/espnet2/train/test_distributed_utils.py
@@ -1,14 +1,16 @@
 import argparse
+import unittest.mock
 from concurrent.futures.process import ProcessPoolExecutor
 from concurrent.futures.thread import ThreadPoolExecutor
-import unittest.mock
 
 import pytest
 
 from espnet2.tasks.abs_task import AbsTask
-from espnet2.train.distributed_utils import DistributedOption
-from espnet2.train.distributed_utils import free_port
-from espnet2.train.distributed_utils import resolve_distributed_mode
+from espnet2.train.distributed_utils import (
+    DistributedOption,
+    free_port,
+    resolve_distributed_mode,
+)
 from espnet2.utils.build_dataclass import build_dataclass
 
 
diff --git a/test/espnet2/train/test_reporter.py b/test/espnet2/train/test_reporter.py
index c928c52523a..ec1f7efc14a 100644
--- a/test/espnet2/train/test_reporter.py
+++ b/test/espnet2/train/test_reporter.py
@@ -1,16 +1,13 @@
 import logging
-from pathlib import Path
 import uuid
+from pathlib import Path
 
 import numpy as np
 import pytest
 import torch
 from torch.utils.tensorboard import SummaryWriter
 
-from espnet2.train.reporter import aggregate
-from espnet2.train.reporter import Average
-from espnet2.train.reporter import ReportedValue
-from espnet2.train.reporter import Reporter
+from espnet2.train.reporter import Average, ReportedValue, Reporter, aggregate
 
 
 @pytest.mark.parametrize("weight1,weight2", [(None, None), (19, np.array(9))])
@@ -53,7 +50,7 @@ def test_register(weight1, weight2):
             desired[k] /= weight1 + weight2
 
     for k1, k2 in reporter.get_all_keys():
-        if k2 in ("time", "total_count"):
+        if k2 in ("time", "total_count", "gpu_max_cached_mem_GB", "gpu_cached_mem_GB"):
             continue
         np.testing.assert_allclose(reporter.get_value(k1, k2), desired[k2])
 
diff --git a/test/espnet2/tts/feats_extract/test_log_mel_fbank.py b/test/espnet2/tts/feats_extract/test_log_mel_fbank.py
index 28135a0c42e..c9d7c69b6c4 100644
--- a/test/espnet2/tts/feats_extract/test_log_mel_fbank.py
+++ b/test/espnet2/tts/feats_extract/test_log_mel_fbank.py
@@ -1,8 +1,8 @@
 import numpy as np
 import torch
 
-from espnet.transform.spectrogram import logmelspectrogram
 from espnet2.tts.feats_extract.log_mel_fbank import LogMelFbank
+from espnet.transform.spectrogram import logmelspectrogram
 
 
 def test_forward():
diff --git a/test/espnet2/tts/feats_extract/test_log_spectrogram.py b/test/espnet2/tts/feats_extract/test_log_spectrogram.py
index 7c30a7185b2..77c97f6797a 100644
--- a/test/espnet2/tts/feats_extract/test_log_spectrogram.py
+++ b/test/espnet2/tts/feats_extract/test_log_spectrogram.py
@@ -1,8 +1,8 @@
 import numpy as np
 import torch
 
-from espnet.transform.spectrogram import spectrogram
 from espnet2.tts.feats_extract.log_spectrogram import LogSpectrogram
+from espnet.transform.spectrogram import spectrogram
 
 
 def test_forward():
diff --git a/test/espnet2/utils/test_build_dataclass.py b/test/espnet2/utils/test_build_dataclass.py
index 17606933a3b..a5984c6e0d3 100644
--- a/test/espnet2/utils/test_build_dataclass.py
+++ b/test/espnet2/utils/test_build_dataclass.py
@@ -1,5 +1,5 @@
-from argparse import Namespace
 import dataclasses
+from argparse import Namespace
 
 import pytest
 
diff --git a/test/espnet2/utils/test_sized_dict.py b/test/espnet2/utils/test_sized_dict.py
index 3b275d9afb6..67f5dd6267e 100644
--- a/test/espnet2/utils/test_sized_dict.py
+++ b/test/espnet2/utils/test_sized_dict.py
@@ -5,8 +5,7 @@
 import pytest
 import torch.multiprocessing
 
-from espnet2.utils.sized_dict import get_size
-from espnet2.utils.sized_dict import SizedDict
+from espnet2.utils.sized_dict import SizedDict, get_size
 
 
 def test_get_size():
diff --git a/test/espnet2/utils/test_types.py b/test/espnet2/utils/test_types.py
index cc3d1fbe9fc..04142263908 100644
--- a/test/espnet2/utils/test_types.py
+++ b/test/espnet2/utils/test_types.py
@@ -3,15 +3,17 @@
 
 import pytest
 
-from espnet2.utils.types import float_or_none
-from espnet2.utils.types import humanfriendly_parse_size_or_none
-from espnet2.utils.types import int_or_none
-from espnet2.utils.types import remove_parenthesis
-from espnet2.utils.types import str2bool
-from espnet2.utils.types import str2pair_str
-from espnet2.utils.types import str2triple_str
-from espnet2.utils.types import str_or_int
-from espnet2.utils.types import str_or_none
+from espnet2.utils.types import (
+    float_or_none,
+    humanfriendly_parse_size_or_none,
+    int_or_none,
+    remove_parenthesis,
+    str2bool,
+    str2pair_str,
+    str2triple_str,
+    str_or_int,
+    str_or_none,
+)
 
 
 @contextmanager
diff --git a/test/test_asr_init.py b/test/test_asr_init.py
index b9254828ab2..8130f29e899 100644
--- a/test/test_asr_init.py
+++ b/test/test_asr_init.py
@@ -10,10 +10,8 @@
 import torch
 
 import espnet.nets.pytorch_backend.lm.default as lm_pytorch
-
 from espnet.asr.asr_utils import torch_save
-from espnet.asr.pytorch_backend.asr_init import freeze_modules
-from espnet.asr.pytorch_backend.asr_init import load_trained_modules
+from espnet.asr.pytorch_backend.asr_init import freeze_modules, load_trained_modules
 from espnet.nets.beam_search_transducer import BeamSearchTransducer
 from espnet.nets.pytorch_backend.nets_utils import pad_list
 
diff --git a/test/test_batch_beam_search.py b/test/test_batch_beam_search.py
index dd40842197f..7b692f12edc 100644
--- a/test/test_batch_beam_search.py
+++ b/test/test_batch_beam_search.py
@@ -1,20 +1,17 @@
+import os
 from argparse import Namespace
+from test.test_beam_search import prepare, transformer_args
 
 import numpy
-import os
 import pytest
 import torch
 
-from espnet.nets.batch_beam_search import BatchBeamSearch
-from espnet.nets.batch_beam_search import BeamSearch
+from espnet.nets.batch_beam_search import BatchBeamSearch, BeamSearch
 from espnet.nets.beam_search import Hypothesis
 from espnet.nets.lm_interface import dynamic_import_lm
 from espnet.nets.scorers.length_bonus import LengthBonus
 from espnet.nets.scorers.ngram import NgramFullScorer
 
-from test.test_beam_search import prepare
-from test.test_beam_search import transformer_args
-
 
 def test_batchfy_hyp():
     vocab_size = 5
diff --git a/test/test_custom_transducer.py b/test/test_custom_transducer.py
index 34447581e6f..69ce111a86e 100644
--- a/test/test_custom_transducer.py
+++ b/test/test_custom_transducer.py
@@ -1,22 +1,21 @@
 # coding: utf-8
 
 import argparse
-from distutils.version import LooseVersion
+import json
 import tempfile
 
-import json
 import pytest
 import torch
+from packaging.version import parse as V
 
-from espnet.asr.pytorch_backend.asr_init import load_trained_model
 import espnet.lm.pytorch_backend.extlm as extlm_pytorch
+import espnet.nets.pytorch_backend.lm.default as lm_pytorch
+from espnet.asr.pytorch_backend.asr_init import load_trained_model
 from espnet.nets.beam_search_transducer import BeamSearchTransducer
 from espnet.nets.pytorch_backend.e2e_asr_transducer import E2E
-import espnet.nets.pytorch_backend.lm.default as lm_pytorch
 from espnet.nets.pytorch_backend.transducer.blocks import build_blocks
 
-is_torch_1_4_plus = LooseVersion(torch.__version__) >= LooseVersion("1.4.0")
-is_torch_1_5_plus = LooseVersion(torch.__version__) >= LooseVersion("1.5.0")
+is_torch_1_5_plus = V(torch.__version__) >= V("1.5.0")
 
 
 def make_train_args(**kwargs):
diff --git a/test/test_e2e_asr.py b/test/test_e2e_asr.py
index a9f29478298..33292c26858 100644
--- a/test/test_e2e_asr.py
+++ b/test/test_e2e_asr.py
@@ -9,20 +9,20 @@
 import importlib
 import os
 import tempfile
+from test.utils_test import make_dummy_json
 
 import chainer
 import numpy as np
 import pytest
 import torch
 
-from espnet.asr import asr_utils
 import espnet.nets.chainer_backend.e2e_asr as ch_asr
 import espnet.nets.pytorch_backend.e2e_asr as th_asr
+from espnet.asr import asr_utils
 from espnet.nets.pytorch_backend.nets_utils import pad_list
 from espnet.nets.pytorch_backend.streaming.segment import SegmentStreamingE2E
 from espnet.nets.pytorch_backend.streaming.window import WindowStreamingE2E
 from espnet.utils.training.batchfy import make_batchset
-from test.utils_test import make_dummy_json
 
 
 def make_arg(**kwargs):
@@ -744,6 +744,7 @@ def test_multi_gpu_trainable(module):
         loss.backward(loss.new_ones(ngpu))  # trainable
     else:
         import copy
+
         import cupy
 
         losses = []
diff --git a/test/test_e2e_asr_conformer.py b/test/test_e2e_asr_conformer.py
index 783b89d445b..72e8bec6da8 100644
--- a/test/test_e2e_asr_conformer.py
+++ b/test/test_e2e_asr_conformer.py
@@ -1,4 +1,5 @@
 import argparse
+
 import pytest
 import torch
 
diff --git a/test/test_e2e_asr_maskctc.py b/test/test_e2e_asr_maskctc.py
index f9154f3ff27..93031d7db3a 100644
--- a/test/test_e2e_asr_maskctc.py
+++ b/test/test_e2e_asr_maskctc.py
@@ -1,4 +1,5 @@
 import argparse
+
 import pytest
 import torch
 
diff --git a/test/test_e2e_asr_mulenc.py b/test/test_e2e_asr_mulenc.py
index 88a04bac456..bd049f6f78a 100644
--- a/test/test_e2e_asr_mulenc.py
+++ b/test/test_e2e_asr_mulenc.py
@@ -9,6 +9,7 @@
 import importlib
 import os
 import tempfile
+from test.utils_test import make_dummy_json
 
 import numpy as np
 import pytest
@@ -16,7 +17,6 @@
 
 from espnet.nets.pytorch_backend.nets_utils import pad_list
 from espnet.utils.training.batchfy import make_batchset
-from test.utils_test import make_dummy_json
 
 
 def make_arg(num_encs, **kwargs):
diff --git a/test/test_e2e_asr_transducer.py b/test/test_e2e_asr_transducer.py
index 835f9bfe8ab..d17116d7b28 100644
--- a/test/test_e2e_asr_transducer.py
+++ b/test/test_e2e_asr_transducer.py
@@ -1,23 +1,23 @@
 # coding: utf-8
 
 import argparse
-from distutils.version import LooseVersion
+import json
 import tempfile
 
-import json
 import numpy as np
 import pytest
 import torch
+from packaging.version import parse as V
 
-from espnet.asr.pytorch_backend.asr_init import load_trained_model
 import espnet.lm.pytorch_backend.extlm as extlm_pytorch
+import espnet.nets.pytorch_backend.lm.default as lm_pytorch
+from espnet.asr.pytorch_backend.asr_init import load_trained_model
 from espnet.nets.beam_search_transducer import BeamSearchTransducer
 from espnet.nets.pytorch_backend.e2e_asr_transducer import E2E
-import espnet.nets.pytorch_backend.lm.default as lm_pytorch
 from espnet.nets.pytorch_backend.nets_utils import pad_list
 
-is_torch_1_4_plus = LooseVersion(torch.__version__) >= LooseVersion("1.4.0")
-is_torch_1_5_plus = LooseVersion(torch.__version__) >= LooseVersion("1.5.0")
+is_torch_1_4_plus = V(torch.__version__) >= V("1.4.0")
+is_torch_1_5_plus = V(torch.__version__) >= V("1.5.0")
 
 
 def get_default_train_args(**kwargs):
diff --git a/test/test_e2e_asr_transformer.py b/test/test_e2e_asr_transformer.py
index 6fd338eefb3..cd0e5c27154 100644
--- a/test/test_e2e_asr_transformer.py
+++ b/test/test_e2e_asr_transformer.py
@@ -1,4 +1,5 @@
 import argparse
+
 import chainer
 import numpy
 import pytest
@@ -7,10 +8,9 @@
 import espnet.nets.chainer_backend.e2e_asr_transformer as ch
 import espnet.nets.pytorch_backend.e2e_asr_transformer as th
 from espnet.nets.pytorch_backend.nets_utils import rename_state_dict
-from espnet.nets.pytorch_backend.transformer.add_sos_eos import add_sos_eos
-from espnet.nets.pytorch_backend.transformer.mask import subsequent_mask
-from espnet.nets.pytorch_backend.transformer.mask import target_mask
 from espnet.nets.pytorch_backend.transformer import plot
+from espnet.nets.pytorch_backend.transformer.add_sos_eos import add_sos_eos
+from espnet.nets.pytorch_backend.transformer.mask import subsequent_mask, target_mask
 
 
 def test_sequential():
diff --git a/test/test_e2e_compatibility.py b/test/test_e2e_compatibility.py
index ea1f1e3b5f1..7930b0bf095 100644
--- a/test/test_e2e_compatibility.py
+++ b/test/test_e2e_compatibility.py
@@ -8,20 +8,18 @@
 
 import importlib
 import os
-from os.path import join
 import re
 import shutil
 import subprocess
 import tempfile
+from os.path import join
 
 import chainer
 import numpy as np
 import pytest
 import torch
 
-from espnet.asr.asr_utils import chainer_load
-from espnet.asr.asr_utils import get_model_conf
-from espnet.asr.asr_utils import torch_load
+from espnet.asr.asr_utils import chainer_load, get_model_conf, torch_load
 
 
 def download_zip_from_google_drive(download_dir, file_id):
diff --git a/test/test_e2e_mt.py b/test/test_e2e_mt.py
index 4c2158b1856..5d31336f397 100644
--- a/test/test_e2e_mt.py
+++ b/test/test_e2e_mt.py
@@ -9,6 +9,7 @@
 import importlib
 import os
 import tempfile
+from test.utils_test import make_dummy_json_mt
 
 import chainer
 import numpy as np
@@ -17,7 +18,6 @@
 
 from espnet.nets.pytorch_backend.nets_utils import pad_list
 from espnet.utils.training.batchfy import make_batchset
-from test.utils_test import make_dummy_json_mt
 
 
 def make_arg(**kwargs):
diff --git a/test/test_e2e_mt_transformer.py b/test/test_e2e_mt_transformer.py
index cf2ad01a9ec..698e01ae08a 100644
--- a/test/test_e2e_mt_transformer.py
+++ b/test/test_e2e_mt_transformer.py
@@ -4,6 +4,7 @@
 #  Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
 
 import argparse
+
 import pytest
 import torch
 
diff --git a/test/test_e2e_st.py b/test/test_e2e_st.py
index f3e53369128..fec33f139a4 100644
--- a/test/test_e2e_st.py
+++ b/test/test_e2e_st.py
@@ -9,6 +9,7 @@
 import importlib
 import os
 import tempfile
+from test.utils_test import make_dummy_json_st
 
 import chainer
 import numpy as np
@@ -17,7 +18,6 @@
 
 from espnet.nets.pytorch_backend.nets_utils import pad_list
 from espnet.utils.training.batchfy import make_batchset
-from test.utils_test import make_dummy_json_st
 
 
 def make_arg(**kwargs):
diff --git a/test/test_e2e_st_conformer.py b/test/test_e2e_st_conformer.py
index be0246ce1fc..a6e35c172cf 100644
--- a/test/test_e2e_st_conformer.py
+++ b/test/test_e2e_st_conformer.py
@@ -3,6 +3,7 @@
 # Copyright 2019 Hirofumi Inaguma
 #  Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
 import argparse
+
 import pytest
 import torch
 
diff --git a/test/test_e2e_st_transformer.py b/test/test_e2e_st_transformer.py
index e10622993ef..ea3cb6799db 100644
--- a/test/test_e2e_st_transformer.py
+++ b/test/test_e2e_st_transformer.py
@@ -3,6 +3,7 @@
 # Copyright 2019 Hirofumi Inaguma
 #  Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
 import argparse
+
 import pytest
 import torch
 
diff --git a/test/test_e2e_tts_fastspeech.py b/test/test_e2e_tts_fastspeech.py
index 6b66902746c..e7475e9e710 100644
--- a/test/test_e2e_tts_fastspeech.py
+++ b/test/test_e2e_tts_fastspeech.py
@@ -8,7 +8,6 @@
 import os
 import shutil
 import tempfile
-
 from argparse import Namespace
 
 import numpy as np
@@ -18,8 +17,8 @@
 from espnet.nets.pytorch_backend.e2e_tts_fastspeech import FeedForwardTransformer
 from espnet.nets.pytorch_backend.e2e_tts_tacotron2 import Tacotron2
 from espnet.nets.pytorch_backend.e2e_tts_transformer import Transformer
-from espnet.nets.pytorch_backend.fastspeech.duration_calculator import (
-    DurationCalculator,  # noqa: H301
+from espnet.nets.pytorch_backend.fastspeech.duration_calculator import (  # noqa: H301
+    DurationCalculator,
 )
 from espnet.nets.pytorch_backend.fastspeech.length_regulator import LengthRegulator
 from espnet.nets.pytorch_backend.nets_utils import pad_list
diff --git a/test/test_e2e_tts_tacotron2.py b/test/test_e2e_tts_tacotron2.py
index dd226b9f0a4..07aa18b0fd9 100644
--- a/test/test_e2e_tts_tacotron2.py
+++ b/test/test_e2e_tts_tacotron2.py
@@ -3,15 +3,14 @@
 # Copyright 2019 Tomoki Hayashi
 #  Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
 
-from __future__ import print_function
-from __future__ import division
+from __future__ import division, print_function
+
+from argparse import Namespace
 
 import numpy as np
 import pytest
 import torch
 
-from argparse import Namespace
-
 from espnet.nets.pytorch_backend.e2e_tts_tacotron2 import Tacotron2
 from espnet.nets.pytorch_backend.nets_utils import pad_list
 
diff --git a/test/test_e2e_tts_transformer.py b/test/test_e2e_tts_transformer.py
index d4013ebd3cd..815929c5c52 100644
--- a/test/test_e2e_tts_transformer.py
+++ b/test/test_e2e_tts_transformer.py
@@ -4,14 +4,13 @@
 # Copyright 2019 Tomoki Hayashi
 #  Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
 
+from argparse import Namespace
+
 import numpy as np
 import pytest
 import torch
 
-from argparse import Namespace
-
-from espnet.nets.pytorch_backend.e2e_tts_transformer import subsequent_mask
-from espnet.nets.pytorch_backend.e2e_tts_transformer import Transformer
+from espnet.nets.pytorch_backend.e2e_tts_transformer import Transformer, subsequent_mask
 from espnet.nets.pytorch_backend.nets_utils import pad_list
 
 
diff --git a/test/test_e2e_vc_tacotron2.py b/test/test_e2e_vc_tacotron2.py
index abc61d9aff4..26faa463987 100644
--- a/test/test_e2e_vc_tacotron2.py
+++ b/test/test_e2e_vc_tacotron2.py
@@ -4,15 +4,14 @@
 # Copyright 2020 Wen-Chin Huang
 #  Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
 
-from __future__ import print_function
-from __future__ import division
+from __future__ import division, print_function
+
+from argparse import Namespace
 
 import numpy as np
 import pytest
 import torch
 
-from argparse import Namespace
-
 from espnet.nets.pytorch_backend.e2e_vc_tacotron2 import Tacotron2
 from espnet.nets.pytorch_backend.nets_utils import pad_list
 
diff --git a/test/test_e2e_vc_transformer.py b/test/test_e2e_vc_transformer.py
index 37e3a4ad808..a7eb05205f1 100644
--- a/test/test_e2e_vc_transformer.py
+++ b/test/test_e2e_vc_transformer.py
@@ -4,15 +4,14 @@
 # Copyright 2020 Wen-Chin Huang
 #  Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
 
+from argparse import Namespace
 from math import floor
+
 import numpy as np
 import pytest
 import torch
 
-from argparse import Namespace
-
-from espnet.nets.pytorch_backend.e2e_vc_transformer import subsequent_mask
-from espnet.nets.pytorch_backend.e2e_vc_transformer import Transformer
+from espnet.nets.pytorch_backend.e2e_vc_transformer import Transformer, subsequent_mask
 from espnet.nets.pytorch_backend.nets_utils import pad_list
 
 
diff --git a/test/test_lm.py b/test/test_lm.py
index 06d0ac68f93..df7c3e790ee 100644
--- a/test/test_lm.py
+++ b/test/test_lm.py
@@ -1,17 +1,16 @@
+from test.test_beam_search import prepare, rnn_args
+
 import chainer
 import numpy
 import pytest
 import torch
 
 import espnet.lm.chainer_backend.lm as lm_chainer
+import espnet.nets.pytorch_backend.lm.default as lm_pytorch
 from espnet.nets.beam_search import beam_search
 from espnet.nets.lm_interface import dynamic_import_lm
-import espnet.nets.pytorch_backend.lm.default as lm_pytorch
 from espnet.nets.scorers.length_bonus import LengthBonus
 
-from test.test_beam_search import prepare
-from test.test_beam_search import rnn_args
-
 
 def transfer_lstm(ch_lstm, th_lstm):
     ch_lstm.upward.W.data[:] = 1
diff --git a/test/test_multi_spkrs.py b/test/test_multi_spkrs.py
index a11430679b0..647cb7b5384 100644
--- a/test/test_multi_spkrs.py
+++ b/test/test_multi_spkrs.py
@@ -5,11 +5,11 @@
 
 import argparse
 import importlib
-import numpy
 import re
-import torch
 
+import numpy
 import pytest
+import torch
 
 
 def make_arg(**kwargs):
diff --git a/test/test_ngram.py b/test/test_ngram.py
index 306e9b277ae..fd9b40a5a60 100644
--- a/test/test_ngram.py
+++ b/test/test_ngram.py
@@ -1,8 +1,8 @@
 import os
-import pytest
-
 from math import isclose
 
+import pytest
+
 kenlm = pytest.importorskip("kenlm")
 
 
diff --git a/test/test_positional_encoding.py b/test/test_positional_encoding.py
index 6637a5245c1..3b808596f51 100644
--- a/test/test_positional_encoding.py
+++ b/test/test_positional_encoding.py
@@ -1,10 +1,11 @@
 import pytest
 import torch
 
-
-from espnet.nets.pytorch_backend.transformer.embedding import LearnableFourierPosEnc
-from espnet.nets.pytorch_backend.transformer.embedding import PositionalEncoding
-from espnet.nets.pytorch_backend.transformer.embedding import ScaledPositionalEncoding
+from espnet.nets.pytorch_backend.transformer.embedding import (
+    LearnableFourierPosEnc,
+    PositionalEncoding,
+    ScaledPositionalEncoding,
+)
 
 
 @pytest.mark.parametrize(
diff --git a/test/test_recog.py b/test/test_recog.py
index 465331eaf2a..1a4539d58eb 100644
--- a/test/test_recog.py
+++ b/test/test_recog.py
@@ -10,8 +10,8 @@
 import torch
 
 import espnet.lm.pytorch_backend.extlm as extlm_pytorch
-from espnet.nets.pytorch_backend import e2e_asr
 import espnet.nets.pytorch_backend.lm.default as lm_pytorch
+from espnet.nets.pytorch_backend import e2e_asr
 
 
 def make_arg(**kwargs):
diff --git a/test/test_scheduler.py b/test/test_scheduler.py
index 893e8a53495..fadbfb94bc8 100644
--- a/test/test_scheduler.py
+++ b/test/test_scheduler.py
@@ -1,12 +1,12 @@
-from espnet.scheduler.chainer import ChainerScheduler
-from espnet.scheduler.pytorch import PyTorchScheduler
-from espnet.scheduler import scheduler
-
 import chainer
 import numpy
 import pytest
 import torch
 
+from espnet.scheduler import scheduler
+from espnet.scheduler.chainer import ChainerScheduler
+from espnet.scheduler.pytorch import PyTorchScheduler
+
 
 @pytest.mark.parametrize("name", scheduler.SCHEDULER_DICT.keys())
 def test_scheduler(name):
diff --git a/test/test_sentencepiece.py b/test/test_sentencepiece.py
index ecfbd92ef99..0b57bc443f0 100644
--- a/test/test_sentencepiece.py
+++ b/test/test_sentencepiece.py
@@ -2,7 +2,6 @@
 
 import sentencepiece as spm
 
-
 root = os.path.dirname(os.path.abspath(__file__))
 
 
diff --git a/test/test_transformer_decode.py b/test/test_transformer_decode.py
index b63fab4784b..5c92c019095 100644
--- a/test/test_transformer_decode.py
+++ b/test/test_transformer_decode.py
@@ -6,7 +6,6 @@
 from espnet.nets.pytorch_backend.transformer.encoder import Encoder
 from espnet.nets.pytorch_backend.transformer.mask import subsequent_mask
 
-
 RTOL = 1e-4
 
 
diff --git a/test/test_utils.py b/test/test_utils.py
index 7103bd2e012..5673da4ccc5 100644
--- a/test/test_utils.py
+++ b/test/test_utils.py
@@ -1,13 +1,13 @@
 #!/usr/bin/env python3
+from test.utils_test import make_dummy_json
+
 import h5py
 import kaldiio
 import numpy as np
 import pytest
 
-from espnet.utils.io_utils import LoadInputsAndTargets
-from espnet.utils.io_utils import SoundHDF5File
+from espnet.utils.io_utils import LoadInputsAndTargets, SoundHDF5File
 from espnet.utils.training.batchfy import make_batchset
-from test.utils_test import make_dummy_json
 
 
 @pytest.mark.parametrize("swap_io", [True, False])
diff --git a/tools/Makefile b/tools/Makefile
index c8c41bbb524..5b8b8f34ef6 100644
--- a/tools/Makefile
+++ b/tools/Makefile
@@ -1,5 +1,5 @@
-# PyTorch version: 1.3.1, 1.4.0, 1.5.1, 1.6.0, 1.7.1, 1.8.1, 1.9.1, 1.10.0 and 1.10.1 are tested.
-TH_VERSION := 1.10.1
+# PyTorch version: 1.3.1, 1.4.0, 1.5.1, 1.6.0, 1.7.1, 1.8.1, 1.9.1, 1.10.0, 1.10.1 and 1.11.0 are tested.
+TH_VERSION := 1.11.0
 
 # Use pip for pytorch installation even if you have anaconda
 ifneq ($(shell test -f ./activate_python.sh && grep 'conda activate' ./activate_python.sh),)
@@ -28,14 +28,8 @@ endif
 
 all: kaldi showenv python conda_packages.done sctk.done sph2pipe.done check_install
 
-ifneq ($(strip $(CHAINER_VERSION)),)
-python: activate_python.sh espnet.done pytorch.done chainer.done fairscale.done torch_optimizer.done
+python: activate_python.sh packaging.done espnet.done pytorch.done chainer.done fairscale.done torch_optimizer.done
 extra: warp-ctc.done warp-transducer.done chainer_ctc.done nkf.done moses.done mwerSegmenter.done pesq kenlm.done pyopenjtalk.done py3mmseg.done beamformit.done fairseq.done s3prl.done k2.done transformers.done phonemizer.done longformer.done
-else
-python: activate_python.sh espnet.done pytorch.done fairscale.done torch_optimizer.done
-extra: warp-ctc.done warp-transducer.done nkf.done moses.done mwerSegmenter.done pesq kenlm.done pyopenjtalk.done py3mmseg.done beamformit.done fairseq.done s3prl.done k2.done transformers.done phonemizer.done longformer.done
-endif
-
 
 kaldi:
 	test -f kaldi/egs/wsj/s5/utils/parse_options.sh || git clone --depth 1 https://github.com/kaldi-asr/kaldi
@@ -73,7 +67,7 @@ sox.done: activate_python.sh
 	. ./activate_python.sh && { command -v sox || conda install -y sox -c conda-forge; }
 	touch sox.done
 sndfile.done: activate_python.sh
-	. ./activate_python.sh && { python3 -c "from ctypes.util import find_library as F; assert F('sndfile') is not None" || conda install -y libsndfile=1.0.28 -c conda-forge; }
+	. ./activate_python.sh && { python3 -c "from ctypes.util import find_library as F; assert F('sndfile') is not None" || conda install -y libsndfile -c conda-forge; }
 	touch sndfile.done
 ifneq ($(strip $(USE_CONDA)),)
 conda_packages.done: bc.done cmake.done flac.done ffmpeg.done sox.done sndfile.done
@@ -90,8 +84,11 @@ sph2pipe.done:
 	./installers/install_sph2pipe.sh
 	touch sph2pipe.done
 
+packaging.done: activate_python.sh
+	. ./activate_python.sh && python3 -m pip install packaging
+	touch packaging.done
 
-pytorch.done: activate_python.sh
+pytorch.done: activate_python.sh packaging.done
 ifeq ($(strip $(USE_CONDA)),)
 	# NOTE(kan-bayashi): Temporary fixed numpy version
 	. ./activate_python.sh && pip install "numpy<=1.21.3"
diff --git a/tools/check_install.py b/tools/check_install.py
index 82081986123..04dbd6df99f 100644
--- a/tools/check_install.py
+++ b/tools/check_install.py
@@ -9,7 +9,7 @@
 import shutil
 import sys
 
-from distutils.version import LooseVersion
+from packaging.version import parse
 
 module_list = [
     ("torchaudio", None, None),
@@ -29,9 +29,9 @@
     ("transformers", None, "installers/install_transformers.sh"),
     ("speechbrain", None, "installers/install_speechbrain.sh"),
     ("k2", None, "installers/install_k2.sh"),
-    ("longformer",None,"installers/install_longformer.sh"),
-    ("nlg-eval",None,"installers/install_longformer.sh"),
-    ("datasets",None,"installers/install_longformer.sh"),
+    ("longformer", None, "installers/install_longformer.sh"),
+    ("nlg-eval", None, "installers/install_longformer.sh"),
+    ("datasets", None, "installers/install_longformer.sh"),
 ]
 
 executable_list = [
@@ -77,7 +77,7 @@ def main():
         import chainer
 
         print(f"[x] chainer={chainer.__version__}")
-        if LooseVersion(chainer.__version__) != LooseVersion("6.0.0"):
+        if parse(chainer.__version__) != parse("6.0.0"):
             print(
                 f"Warning! chainer={chainer.__version__} is not supported. "
                 "Supported version is 6.0.0"
diff --git a/tools/installers/install_chainer.sh b/tools/installers/install_chainer.sh
index 9ce037f68f6..4ef3e4cdc58 100755
--- a/tools/installers/install_chainer.sh
+++ b/tools/installers/install_chainer.sh
@@ -16,13 +16,16 @@ if [ "${cuda_version}" = cpu ] || [ "${cuda_version}" = CPU ]; then
 fi
 
 
+if ! python -c "import packaging.version" &> /dev/null; then
+    python3 -m pip install packaging
+fi
 # espnet requires chiner=6.0.0
 chainer_version=6.0.0
 python_version=$(python3 -c "import sys; print(sys.version.split()[0])")
 cuda_version_without_dot="${cuda_version/\./}"
 python_plus(){
     python3 <<EOF
-from distutils.version import LooseVersion as L
+from packaging.version import parse as L
 if L('$python_version') >= L('$1'):
     print("true")
 else:
@@ -31,7 +34,7 @@ EOF
 }
 cuda_plus(){
     python3 <<EOF
-from distutils.version import LooseVersion as L
+from packaging.version import parse as L
 if L('$cuda_version') >= L('$1'):
     print("true")
 else:
diff --git a/tools/installers/install_fairscale.sh b/tools/installers/install_fairscale.sh
index 876c0b31ead..436d5ae7b54 100755
--- a/tools/installers/install_fairscale.sh
+++ b/tools/installers/install_fairscale.sh
@@ -7,12 +7,15 @@ if [ $# != 0 ]; then
     exit 1;
 fi
 
+if ! python -c "import packaging.version" &> /dev/null; then
+    python3 -m pip install packaging
+fi
 torch_version=$(python3 -c "import torch; print(torch.__version__)")
 python_36_plus=$(python3 <<EOF
-from distutils.version import LooseVersion as V
+from packaging.version import parse as V
 import sys
 
-if V(sys.version) >= V("3.6"):
+if V("{}.{}.{}".format(*sys.version_info[:3])) >= V("3.6"):
     print("true")
 else:
     print("false")
@@ -22,7 +25,7 @@ EOF
 pt_plus(){
     python3 <<EOF
 import sys
-from distutils.version import LooseVersion as L
+from packaging.version import parse as L
 if L('$torch_version') >= L('$1'):
     print("true")
 else:
diff --git a/tools/installers/install_fairseq.sh b/tools/installers/install_fairseq.sh
index 780d8ce81b0..61824378f6d 100755
--- a/tools/installers/install_fairseq.sh
+++ b/tools/installers/install_fairseq.sh
@@ -7,12 +7,15 @@ if [ $# != 0 ]; then
     exit 1;
 fi
 
+if ! python -c "import packaging.version" &> /dev/null; then
+    python3 -m pip install packaging
+fi
 torch_version=$(python3 -c "import torch; print(torch.__version__)")
 python_36_plus=$(python3 <<EOF
-from distutils.version import LooseVersion as V
+from packaging.version import parse as V
 import sys
 
-if V(sys.version) >= V("3.6"):
+if V("{}.{}.{}".format(*sys.version_info[:3])) >= V("3.6"):
     print("true")
 else:
     print("false")
@@ -22,7 +25,7 @@ EOF
 pt_plus(){
     python3 <<EOF
 import sys
-from distutils.version import LooseVersion as L
+from packaging.version import parse as L
 if L('$torch_version') >= L('$1'):
     print("true")
 else:
diff --git a/tools/installers/install_k2.sh b/tools/installers/install_k2.sh
index 667edb86a03..6066584fd0a 100755
--- a/tools/installers/install_k2.sh
+++ b/tools/installers/install_k2.sh
@@ -25,12 +25,15 @@ else
     use_conda=$([[ $(conda list -e -c -f --no-pip pytorch 2>/dev/null) =~ pytorch ]] && echo true || echo false)
 fi
 
+if ! python -c "import packaging.version" &> /dev/null; then
+    python3 -m pip install packaging
+fi
 
 python_36_plus=$(python3 <<EOF
-from distutils.version import LooseVersion as V
+from packaging.version import parse as V
 import sys
 
-if V(sys.version) >= V("3.6"):
+if V("{}.{}.{}".format(*sys.version_info[:3])) >= V("3.6"):
     print("true")
 else:
     print("false")
@@ -64,7 +67,7 @@ libc_version="$(${libc_path} | grep "GNU C Library" | grep -oP "version [0-9]*.[
 pytorch_plus(){
     python3 <<EOF
 import sys
-from distutils.version import LooseVersion as L
+from packaging.version import parse as L
 if L('$torch_version') >= L('$1'):
     print("true")
 else:
@@ -74,7 +77,7 @@ EOF
 libc_plus(){
     python3 <<EOF
 import sys
-from distutils.version import LooseVersion as L
+from packaging.version import parse as L
 if L('$libc_version') >= L('$1'):
     print("true")
 else:
diff --git a/tools/installers/install_longformer.sh b/tools/installers/install_longformer.sh
index c942abb0dd9..04e817ecc36 100755
--- a/tools/installers/install_longformer.sh
+++ b/tools/installers/install_longformer.sh
@@ -7,12 +7,15 @@ if [ $# != 0 ]; then
     exit 1;
 fi
 
+if ! python -c "import packaging.version" &> /dev/null; then
+    python3 -m pip install packaging
+fi
 torch_version=$(python3 -c "import torch; print(torch.__version__)")
 python_36_plus=$(python3 <<EOF
-from distutils.version import LooseVersion as V
+from packaging.version import parse as V
 import sys
 
-if V(sys.version) >= V("3.6"):
+if V("{}.{}.{}".format(*sys.version_info[:3])) >= V("3.6"):
     print("true")
 else:
     print("false")
@@ -21,7 +24,7 @@ EOF
 pt_plus(){
     python3 <<EOF
 import sys
-from distutils.version import LooseVersion as L
+from packaging.version import parse as L
 if L('$torch_version') >= L('$1'):
     print("true")
 else:
diff --git a/tools/installers/install_s3prl.sh b/tools/installers/install_s3prl.sh
index 66f38af0e36..b55092e3e30 100755
--- a/tools/installers/install_s3prl.sh
+++ b/tools/installers/install_s3prl.sh
@@ -9,8 +9,11 @@ if [ $# != 0 ]; then
     exit 1;
 fi
 
+if ! python -c "import packaging.version" &> /dev/null; then
+    python3 -m pip install packaging
+fi
 torch_17_plus=$(python3 <<EOF
-from distutils.version import LooseVersion as V
+from packaging.version import parse as V
 import torch
 
 if V(torch.__version__) >= V("1.7"):
@@ -21,10 +24,10 @@ EOF
 )
 
 python_36_plus=$(python3 <<EOF
-from distutils.version import LooseVersion as V
+from packaging.version import parse as V
 import sys
 
-if V(sys.version) >= V("3.6"):
+if V("{}.{}.{}".format(*sys.version_info[:3])) >= V("3.6"):
     print("true")
 else:
     print("false")
diff --git a/tools/installers/install_speechbrain.sh b/tools/installers/install_speechbrain.sh
index b3c2310206e..420bfe9b636 100755
--- a/tools/installers/install_speechbrain.sh
+++ b/tools/installers/install_speechbrain.sh
@@ -7,8 +7,11 @@ if [ $# != 0 ]; then
     exit 1;
 fi
 
+if ! python -c "import packaging.version" &> /dev/null; then
+    python3 -m pip install packaging
+fi
 torch_18_plus=$(python3 <<EOF
-from distutils.version import LooseVersion as V
+from packaging.version import parse as V
 import torch
 
 if V(torch.__version__) >= V("1.8"):
diff --git a/tools/installers/install_torch.sh b/tools/installers/install_torch.sh
index 285e37b6fd4..78ea41983a0 100755
--- a/tools/installers/install_torch.sh
+++ b/tools/installers/install_torch.sh
@@ -29,7 +29,7 @@ cuda_version_without_dot="${cuda_version/\./}"
 
 python_plus(){
     python3 <<EOF
-from distutils.version import LooseVersion as L
+from packaging.version import parse as L
 if L('$python_version') >= L('$1'):
     print("true")
 else:
@@ -38,7 +38,7 @@ EOF
 }
 pytorch_plus(){
     python3 <<EOF
-from distutils.version import LooseVersion as L
+from packaging.version import parse as L
 if L('$torch_version') >= L('$1'):
     print("true")
 else:
@@ -51,6 +51,12 @@ install_torch(){
         if [ -z "${cuda_version}" ]; then
             log conda install -y "pytorch=${torch_version}" "torchaudio=$1" cpuonly -c pytorch
             conda install -y "pytorch=${torch_version}" "torchaudio=$1" cpuonly -c pytorch
+        elif [ "${cuda_version}" = "11.5" ]; then
+            # NOTE(kamo): In my environment, cudatoolkit of conda-forge only could be installed, but I don't know why @ 12, May, 2022
+            cudatoolkit_channel=conda-forge
+            log conda install -y "pytorch=${torch_version}" "torchaudio=$1" "cudatoolkit=${cuda_version}" -c pytorch -c "${cudatoolkit_channel}"
+            conda install -y "pytorch=${torch_version}" "torchaudio=$1" "cudatoolkit=${cuda_version}" -c pytorch -c "${cudatoolkit_channel}"
+
         elif [ "${cuda_version}" = "11.1" ] || [ "${cuda_version}" = "11.2" ]; then
             # Anaconda channel, which is default main channel, doesn't provide cudatoolkit=11.1, 11.2 now (Any pytorch version doesn't provide cuda=11.2).
             # https://anaconda.org/anaconda/cudatoolkit/files
@@ -120,19 +126,34 @@ log "[INFO] python_version=${python_version}"
 log "[INFO] torch_version=${torch_version}"
 log "[INFO] cuda_version=${cuda_version}"
 
+if ! python -c "import packaging.version" &> /dev/null; then
+    python3 -m pip install packaging
+fi
 
-if $(pytorch_plus 1.10.2); then
+if $(pytorch_plus 1.11.1); then
     log "[ERROR] This script doesn't support pytorch=${torch_version}"
     exit 1
 
+elif $(pytorch_plus 1.11.0); then
+    check_python_version 3.11  # Error if python>=<number>
+    check_cuda_version 11.5 11.3 11.1 10.2  # Error if cuda_version doesn't match with any given numbers
+    install_torch 0.11.0 10.2  # install_torch <torch-audio-ver> <default-cuda-version-for-pip-install-torch>
+
+elif $(pytorch_plus 1.10.2); then
+    check_python_version 3.10  # Error if python>=<number>
+    check_cuda_version 11.3 11.1 10.2  # Error if cuda_version doesn't match with any given numbers
+    install_torch 0.10.2 10.2  # install_torch <torch-audio-ver> <default-cuda-version-for-pip-install-torch>
+
 elif $(pytorch_plus 1.10.1); then
     check_python_version 3.10  # Error if python>=<number>
     check_cuda_version 11.3 11.1 10.2  # Error if cuda_version doesn't match with any given numbers
     install_torch 0.10.1 10.2  # install_torch <torch-audio-ver> <default-cuda-version-for-pip-install-torch>
+
 elif $(pytorch_plus 1.10.0); then
-    check_python_version 3.10  # Error if python>=<number>
+    check_python_version 3.11  # Error if python>=<number>
     check_cuda_version 11.3 11.1 10.2  # Error if cuda_version doesn't match with any given numbers
     install_torch 0.10.0 10.2  # install_torch <torch-audio-ver> <default-cuda-version-for-pip-install-torch>
+
 elif $(pytorch_plus 1.9.2); then
     log "[ERROR] pytorch=${torch_version} doesn't exist"
     exit 1
diff --git a/tools/installers/install_torch_optimizer.sh b/tools/installers/install_torch_optimizer.sh
index 5d8565deead..014ca1d0830 100755
--- a/tools/installers/install_torch_optimizer.sh
+++ b/tools/installers/install_torch_optimizer.sh
@@ -7,12 +7,15 @@ if [ $# != 0 ]; then
     exit 1;
 fi
 
+if ! python -c "import packaging.version" &> /dev/null; then
+    python3 -m pip install packaging
+fi
 torch_version=$(python3 -c "import torch; print(torch.__version__)")
 python_36_plus=$(python3 <<EOF
-from distutils.version import LooseVersion as V
+from packaging.version import parse as V
 import sys
 
-if V(sys.version) >= V("3.6"):
+if V("{}.{}.{}".format(*sys.version_info[:3])) >= V("3.6"):
     print("true")
 else:
     print("false")
@@ -22,7 +25,7 @@ EOF
 pt_plus(){
     python3 <<EOF
 import sys
-from distutils.version import LooseVersion as L
+from packaging.version import parse as L
 if L('$torch_version') >= L('$1'):
     print("true")
 else:
diff --git a/tools/installers/install_warp-ctc.sh b/tools/installers/install_warp-ctc.sh
index 38267d955d4..5550afbd15a 100755
--- a/tools/installers/install_warp-ctc.sh
+++ b/tools/installers/install_warp-ctc.sh
@@ -8,8 +8,11 @@ if [ $# != 0 ]; then
     exit 1;
 fi
 
+if ! python -c "import packaging.version" &> /dev/null; then
+    python3 -m pip install packaging
+fi
 torch_17_plus=$(python3 <<EOF
-from distutils.version import LooseVersion as V
+from packaging.version import parse as V
 import torch
 
 if V(torch.__version__) >= V("1.7"):
@@ -20,7 +23,7 @@ EOF
 )
 
 torch_11_plus=$(python3 <<EOF
-from distutils.version import LooseVersion as V
+from packaging.version import parse as V
 import torch
 
 if V(torch.__version__) >= V("1.1"):
@@ -31,7 +34,7 @@ EOF
 )
 
 torch_10_plus=$(python3 <<EOF
-from distutils.version import LooseVersion as V
+from packaging.version import parse as V
 import torch
 
 if V(torch.__version__) >= V("1.0"):
diff --git a/tools/installers/install_warp-transducer.sh b/tools/installers/install_warp-transducer.sh
index 9ed3ce18fc3..3265ef95ae0 100755
--- a/tools/installers/install_warp-transducer.sh
+++ b/tools/installers/install_warp-transducer.sh
@@ -6,10 +6,13 @@ if [ $# != 0 ]; then
     exit 1;
 fi
 
+if ! python -c "import packaging.version" &> /dev/null; then
+    python3 -m pip install packaging
+fi
 # TODO(kamo): Consider clang case
 # Note: Requires gcc>=4.9.2 to build extensions with pytorch>=1.0
 if python3 -c 'import torch as t;assert t.__version__[0] == "1"' &> /dev/null; then \
-    python3 -c "from distutils.version import LooseVersion as V;assert V('$(gcc -dumpversion)') >= V('4.9.2'), 'Requires gcc>=4.9.2'"; \
+    python3 -c "from packaging.version import parse as V;assert V('$(gcc -dumpversion)') >= V('4.9.2'), 'Requires gcc>=4.9.2'"; \
 fi
 
 rm -rf warp-transducer
diff --git a/utils/addjson.py b/utils/addjson.py
index 9649352c42f..aef2a0359be 100755
--- a/utils/addjson.py
+++ b/utils/addjson.py
@@ -10,7 +10,6 @@
 import json
 import logging
 import sys
-
 from distutils.util import strtobool
 
 from espnet.utils.cli_utils import get_commandline_args
diff --git a/utils/apply-cmvn.py b/utils/apply-cmvn.py
index bf5c6ac05a3..cde56aabd52 100755
--- a/utils/apply-cmvn.py
+++ b/utils/apply-cmvn.py
@@ -1,15 +1,14 @@
 #!/usr/bin/env python3
 import argparse
-from distutils.util import strtobool
 import logging
+from distutils.util import strtobool
 
 import kaldiio
 import numpy
 
 from espnet.transform.cmvn import CMVN
 from espnet.utils.cli_readers import file_reader_helper
-from espnet.utils.cli_utils import get_commandline_args
-from espnet.utils.cli_utils import is_scipy_wav_style
+from espnet.utils.cli_utils import get_commandline_args, is_scipy_wav_style
 from espnet.utils.cli_writers import file_writer_helper
 
 
diff --git a/utils/calculate_rtf.py b/utils/calculate_rtf.py
index 6be8dffd8eb..e6e2fb1efa0 100755
--- a/utils/calculate_rtf.py
+++ b/utils/calculate_rtf.py
@@ -6,10 +6,11 @@
 
 import argparse
 import codecs
-from dateutil import parser
 import glob
 import os
 
+from dateutil import parser
+
 
 def get_parser():
     parser = argparse.ArgumentParser(description="calculate real time factor (RTF)")
diff --git a/utils/compute-cmvn-stats.py b/utils/compute-cmvn-stats.py
index 067daec6cfb..a2f8a586ed7 100755
--- a/utils/compute-cmvn-stats.py
+++ b/utils/compute-cmvn-stats.py
@@ -7,8 +7,7 @@
 
 from espnet.transform.transformation import Transformation
 from espnet.utils.cli_readers import file_reader_helper
-from espnet.utils.cli_utils import get_commandline_args
-from espnet.utils.cli_utils import is_scipy_wav_style
+from espnet.utils.cli_utils import get_commandline_args, is_scipy_wav_style
 from espnet.utils.cli_writers import file_writer_helper
 
 
diff --git a/utils/compute-fbank-feats.py b/utils/compute-fbank-feats.py
index fabded4d5ac..ae1f9a55f0a 100755
--- a/utils/compute-fbank-feats.py
+++ b/utils/compute-fbank-feats.py
@@ -4,17 +4,17 @@
 #  Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
 
 import argparse
-from distutils.util import strtobool
 import logging
+from distutils.util import strtobool
 
 import kaldiio
 import numpy
 import resampy
 
+from espnet2.utils.types import int_or_none
 from espnet.transform.spectrogram import logmelspectrogram
 from espnet.utils.cli_utils import get_commandline_args
 from espnet.utils.cli_writers import file_writer_helper
-from espnet2.utils.types import int_or_none
 
 
 def get_parser():
diff --git a/utils/compute-stft-feats.py b/utils/compute-stft-feats.py
index fe4cdc563b2..c8264b00d11 100755
--- a/utils/compute-stft-feats.py
+++ b/utils/compute-stft-feats.py
@@ -4,17 +4,17 @@
 #  Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
 
 import argparse
-from distutils.util import strtobool
 import logging
+from distutils.util import strtobool
 
 import kaldiio
 import numpy
 import resampy
 
+from espnet2.utils.types import int_or_none
 from espnet.transform.spectrogram import spectrogram
 from espnet.utils.cli_utils import get_commandline_args
 from espnet.utils.cli_writers import file_writer_helper
-from espnet2.utils.types import int_or_none
 
 
 def get_parser():
diff --git a/utils/convert_fbank_to_wav.py b/utils/convert_fbank_to_wav.py
index e38feb90593..73e6edb3947 100755
--- a/utils/convert_fbank_to_wav.py
+++ b/utils/convert_fbank_to_wav.py
@@ -7,16 +7,14 @@
 import logging
 import os
 
-from distutils.version import LooseVersion
-
 import librosa
 import numpy as np
+from packaging.version import parse as V
 from scipy.io.wavfile import write
 
 from espnet.utils.cli_readers import file_reader_helper
 from espnet.utils.cli_utils import get_commandline_args
 
-
 EPS = 1e-10
 
 
@@ -66,7 +64,7 @@ def griffin_lim(spc, n_fft, n_shift, win_length, window="hann", n_iters=100):
     # assert the size of input linear spectrogram
     assert spc.shape[1] == n_fft // 2 + 1
 
-    if LooseVersion(librosa.__version__) >= LooseVersion("0.7.0"):
+    if V(librosa.__version__) >= V("0.7.0"):
         # use librosa's fast Grriffin-Lim algorithm
         spc = np.abs(spc.T)
         y = librosa.griffinlim(
diff --git a/utils/copy-feats.py b/utils/copy-feats.py
index 1a43d5737db..ad400ba601e 100755
--- a/utils/copy-feats.py
+++ b/utils/copy-feats.py
@@ -1,12 +1,11 @@
 #!/usr/bin/env python3
 import argparse
-from distutils.util import strtobool
 import logging
+from distutils.util import strtobool
 
 from espnet.transform.transformation import Transformation
 from espnet.utils.cli_readers import file_reader_helper
-from espnet.utils.cli_utils import get_commandline_args
-from espnet.utils.cli_utils import is_scipy_wav_style
+from espnet.utils.cli_utils import get_commandline_args, is_scipy_wav_style
 from espnet.utils.cli_writers import file_writer_helper
 
 
diff --git a/utils/dump-pcm.py b/utils/dump-pcm.py
index a942a323528..df5a1ecf79c 100755
--- a/utils/dump-pcm.py
+++ b/utils/dump-pcm.py
@@ -1,7 +1,7 @@
 #!/usr/bin/env python3
 import argparse
-from distutils.util import strtobool
 import logging
+from distutils.util import strtobool
 
 import kaldiio
 import numpy
diff --git a/utils/eval-source-separation.py b/utils/eval-source-separation.py
index 6ba1c024cd5..780e3c6b12e 100755
--- a/utils/eval-source-separation.py
+++ b/utils/eval-source-separation.py
@@ -1,21 +1,21 @@
 #!/usr/bin/env python3
 import argparse
-from collections import OrderedDict
-from distutils.util import strtobool
 import itertools
 import logging
 import os
-from pathlib import Path
 import shutil
 import subprocess
 import sys
-from tempfile import TemporaryDirectory
 import warnings
+from collections import OrderedDict
+from distutils.util import strtobool
+from pathlib import Path
+from tempfile import TemporaryDirectory
 
 import museval
 import numpy as np
-from pystoi.stoi import stoi
 import soundfile
+from pystoi.stoi import stoi
 
 from espnet.utils.cli_utils import get_commandline_args
 
diff --git a/utils/eval_perm_free_error.py b/utils/eval_perm_free_error.py
index 2f1b15132b2..27814bed545 100755
--- a/utils/eval_perm_free_error.py
+++ b/utils/eval_perm_free_error.py
@@ -8,10 +8,10 @@
 import json
 import logging
 import re
-import six
 import sys
 
 import numpy as np
+import six
 
 
 def permutationDFS(source, start, res):
diff --git a/utils/feat-to-shape.py b/utils/feat-to-shape.py
index 559abcd9e25..5c34bc363a9 100755
--- a/utils/feat-to-shape.py
+++ b/utils/feat-to-shape.py
@@ -5,8 +5,7 @@
 
 from espnet.transform.transformation import Transformation
 from espnet.utils.cli_readers import file_reader_helper
-from espnet.utils.cli_utils import get_commandline_args
-from espnet.utils.cli_utils import is_scipy_wav_style
+from espnet.utils.cli_utils import get_commandline_args, is_scipy_wav_style
 
 
 def get_parser():
diff --git a/utils/feats2npy.py b/utils/feats2npy.py
index 456e244e735..72efb99cddf 100755
--- a/utils/feats2npy.py
+++ b/utils/feats2npy.py
@@ -2,11 +2,12 @@
 #  coding: utf-8
 
 import argparse
-from kaldiio import ReadHelper
-import numpy as np
 import os
-from os.path import join
 import sys
+from os.path import join
+
+import numpy as np
+from kaldiio import ReadHelper
 
 
 def get_parser():
diff --git a/utils/generate_wav_from_fbank.py b/utils/generate_wav_from_fbank.py
index 1664b418797..4ebf7db0963 100755
--- a/utils/generate_wav_from_fbank.py
+++ b/utils/generate_wav_from_fbank.py
@@ -15,13 +15,10 @@
 import numpy as np
 import pysptk
 import torch
-
 from scipy.io.wavfile import write
 from sklearn.preprocessing import StandardScaler
 
-from espnet.nets.pytorch_backend.wavenet import decode_mu_law
-from espnet.nets.pytorch_backend.wavenet import encode_mu_law
-from espnet.nets.pytorch_backend.wavenet import WaveNet
+from espnet.nets.pytorch_backend.wavenet import WaveNet, decode_mu_law, encode_mu_law
 from espnet.utils.cli_readers import file_reader_helper
 from espnet.utils.cli_utils import get_commandline_args
 
diff --git a/utils/json2sctm.py b/utils/json2sctm.py
index e482f958a9c..45c6085ffac 100644
--- a/utils/json2sctm.py
+++ b/utils/json2sctm.py
@@ -6,7 +6,6 @@
 import subprocess
 import sys
 
-
 is_python2 = sys.version_info[0] == 2
 
 
@@ -29,9 +28,7 @@ def get_parser():
 
 
 def main(args):
-    from utils import json2trn
-    from utils import trn2ctm
-    from utils import trn2stm
+    from utils import json2trn, trn2ctm, trn2stm
 
     parser = get_parser()
     args = parser.parse_args(args)
diff --git a/utils/make_pair_json.py b/utils/make_pair_json.py
index 236fc6a839b..4002a010ba7 100755
--- a/utils/make_pair_json.py
+++ b/utils/make_pair_json.py
@@ -5,10 +5,10 @@
 #  Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
 
 import argparse
-from io import open
 import json
 import logging
 import sys
+from io import open
 
 from espnet.utils.cli_utils import get_commandline_args
 
diff --git a/utils/mcd_calculate.py b/utils/mcd_calculate.py
index 4504f2eb396..d2575a02e7d 100755
--- a/utils/mcd_calculate.py
+++ b/utils/mcd_calculate.py
@@ -11,14 +11,13 @@
 import multiprocessing as mp
 import os
 
-from fastdtw import fastdtw
 import numpy as np
 import pysptk
 import pyworld as pw
 import scipy
+from fastdtw import fastdtw
 from scipy.io import wavfile
-from scipy.signal import firwin
-from scipy.signal import lfilter
+from scipy.signal import firwin, lfilter
 
 
 def find_files(root_dir, query="*.wav", include_root_dir=True):
diff --git a/utils/merge_scp2json.py b/utils/merge_scp2json.py
index 8ee4aef48be..269e803238b 100755
--- a/utils/merge_scp2json.py
+++ b/utils/merge_scp2json.py
@@ -4,11 +4,11 @@
 
 import argparse
 import codecs
-from distutils.util import strtobool
-from io import open
 import json
 import logging
 import sys
+from distutils.util import strtobool
+from io import open
 
 from espnet.utils.cli_utils import get_commandline_args
 
diff --git a/utils/spm_train b/utils/spm_train
index 0b247aee0dc..134a0b1d30a 100755
--- a/utils/spm_train
+++ b/utils/spm_train
@@ -8,6 +8,5 @@ import sys
 
 import sentencepiece as spm
 
-
 if __name__ == "__main__":
     spm.SentencePieceTrainer.Train(" ".join(sys.argv[1:]))
diff --git a/utils/text2vocabulary.py b/utils/text2vocabulary.py
index b0737d460cd..b45bc645e69 100755
--- a/utils/text2vocabulary.py
+++ b/utils/text2vocabulary.py
@@ -6,9 +6,10 @@
 import argparse
 import codecs
 import logging
-import six
 import sys
 
+import six
+
 is_python2 = sys.version_info[0] == 2