Support Expert Parallelism #72

NouamaneTazi · 2024-02-16T03:49:32Z

No description provided.

xrsrke · 2024-02-16T06:51:38Z

src/nanotron/config/parallelism_config.py

@@ -20,6 +20,7 @@ class ParallelismArgs:
        dp: Number of DP replicas
        pp: Number of PP stages
        tp: Number of TP replicas
+        expert_parallel_size: Number of expert parallel replicas (used only for MoEs)


Isn't expert_parallel_size should be the number of experts per tp rank?

Not quite, expert parallelism is orthogonal to TP. for example you can have 1 expert sharded along 2 tp ranks

src/nanotron/config/parallelism_config.py

src/nanotron/parallel/context.py

src/nanotron/trainer.py

…ouamane/exp_pg

NouamaneTazi added 3 commits February 16, 2024 02:54

add expert_pg

0bcae00

Add support for expert parallelism in parallelism configuration

a79d51e

Add expert parallel log to logger format

4498eaf

NouamaneTazi requested a review from xrsrke February 16, 2024 03:49

xrsrke requested changes Feb 16, 2024

View reviewed changes

NouamaneTazi added 2 commits February 16, 2024 16:21

make dataloader unique along EXP

2715bc5

ignore_sanity_checks True by default

a91803e

NouamaneTazi marked this pull request as ready for review February 16, 2024 16:41

suggs

25ef26b

NouamaneTazi requested a review from xrsrke February 16, 2024 16:43

Merge branch 'main' of https://github.com/huggingface/nanotron into n…

d9afefd

…ouamane/exp_pg

NouamaneTazi merged commit b21538c into main Feb 16, 2024
2 of 3 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Support Expert Parallelism #72

Support Expert Parallelism #72

NouamaneTazi commented Feb 16, 2024

xrsrke Feb 16, 2024

NouamaneTazi Feb 16, 2024

Support Expert Parallelism #72

Support Expert Parallelism #72

Conversation

NouamaneTazi commented Feb 16, 2024

xrsrke Feb 16, 2024

Choose a reason for hiding this comment

NouamaneTazi Feb 16, 2024

Choose a reason for hiding this comment