Update 05_ddp.md #525

XuHu0529 · 2023-03-01T07:43:48Z

sbp示例代码中，DistributedSampler封装使dataloader进行分布式数据划分

cn/docs/parallelism/05_ddp.md

doombeaker · 2023-03-01T08:43:32Z

代码没问题后。记得英文版（en 目录下）的对应文章中的代码也要更新下。

cn/docs/parallelism/05_ddp.md

brandonliu2 · 2023-04-11T13:11:04Z

当前问题：根据文档描述，由单机单卡改为并行训练时，只需设置placement，模型集群广播以及split切分即可。但在运行示例代码与单机单卡进行比对时发现，如果只做以上三处改动，会导致模型训练结果变差。
猜测：测试发现，目测单机双卡batchsize为64时的训练效果与单机单卡batchsize为128时类似。
~~可以观察到双卡训练时两张卡的输出完全相同，是否意味着数据输入有问题？~~
实验数据：
以下分别为单机双卡batchsize=64

单机单卡batchsize=128

单机单卡batchsize=64

doombeaker · 2023-04-12T02:02:02Z

我发现原文档中已经提示过 sampler 的问题

https://docs.oneflow.org/master/parallelism/05_ddp.html#distributedsampler

所以最开始的例子还是保持不变吧，在 05_ddp.html#distributedsampler 那节做修改，添加一个有 distributedsampler，所以单机单卡和分布式训练效果会一致的例子。

doombeaker · 2023-04-14T09:16:48Z

我发现原文档中已经提示过 sampler 的问题

https://docs.oneflow.org/master/parallelism/05_ddp.html#distributedsampler

所以最开始的例子还是保持不变吧，在 05_ddp.html#distributedsampler 那节做修改，添加一个有 distributedsampler，所以单机单卡和分布式训练效果会一致的例子。

这一条要求好像还没有更新

doombeaker

现在好像还有些 comment 的意见没有处理，请查看下，不管修改不修改，都回复下。

另外，如果是 ready for review 的状态，请提供下在线预览或者编译效果截图。

doombeaker · 2023-04-14T09:17:41Z

cn/docs/parallelism/05_ddp.md

@@ -88,6 +91,8 @@
    y = y.to_global(placement=PLACEMENT, sbp=S0)
 ```

+- 需要注意的是，在进行分布式并行训练时，代码中规定的`BATCH_SIZE`为每一台机器的本地值而非`GLOBAL_BATCH_SIZE`,故上述代码单机双卡`BATCH_SIZE=64`的训练效果与单机单卡`BATCH_SIZE=128`一致。


Suggested change

- 需要注意的是，在进行分布式并行训练时，代码中规定的`BATCH_SIZE`为每一台机器的本地值而非`GLOBAL_BATCH_SIZE`,故上述代码单机双卡`BATCH_SIZE=64`的训练效果与单机单卡`BATCH_SIZE=128`一致。

- 需要注意的是，在进行分布式并行训练时，代码中规定的 `BATCH_SIZE` 为每一台机器的本地值而非`GLOBAL_BATCH_SIZE`,故上述代码单机双卡 `BATCH_SIZE=64` 的训练效果与单机单卡 `BATCH_SIZE=128` 一致。

中英文之间、中文和数字之间要有空格。

其实我觉得这句不用加这里，因为它如果懂 global tensor，应该自己懂这个道理。
如果真要解释，是不是把 global tensor 那篇文章多做解释，解释下各种 sbp 下，to global 后的 global tensor 的形状。

其实我觉得这句不用加这里，因为它如果懂 global tensor，应该自己懂这个道理。
如果真要解释，是不是把 global tensor 那篇文章多做解释，解释下各种 sbp 下，to global 后的 global tensor 的形状。

好的，global tensor的文档中已经有相应的tensor形状变化的解释以及例子。因为客户在微信聊天记录里问了一下这个batch_size=64是local还是global，我想着这里再解释一遍。

brandonliu2 · 2023-04-16T13:16:57Z

我发现原文档中已经提示过 sampler 的问题
https://docs.oneflow.org/master/parallelism/05_ddp.html#distributedsampler

所以最开始的例子还是保持不变吧，在 05_ddp.html#distributedsampler 那节做修改，添加一个有 distributedsampler，所以单机单卡和分布式训练效果会一致的例子。

这一条要求好像还没有更新

我的理解是，上面的那个sbp例子是有问题的，因为没有加distributedsampler，导致训练时两张卡拿到了一样的数据，global_tensor就没起效果，客户跑了之后就产生了疑问。

Update 05_ddp.md

8f6fa4d

sbp示例代码中，DistributedSampler封装使dataloader进行分布式数据划分

doombeaker reviewed Mar 1, 2023

View reviewed changes

cn/docs/parallelism/05_ddp.md Show resolved Hide resolved

Ldpe2G reviewed Mar 1, 2023

View reviewed changes

cn/docs/parallelism/05_ddp.md Show resolved Hide resolved

添加batch_size是单机单卡除以2的说明

41b46b4

doombeaker reviewed Apr 14, 2023

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Update 05_ddp.md #525

Update 05_ddp.md #525

Uh oh!

XuHu0529 commented Mar 1, 2023

Uh oh!

Uh oh!

doombeaker commented Mar 1, 2023

Uh oh!

Uh oh!

brandonliu2 commented Apr 11, 2023 •

edited

Loading

Uh oh!

doombeaker commented Apr 12, 2023

Uh oh!

doombeaker commented Apr 14, 2023

Uh oh!

doombeaker left a comment

Uh oh!

doombeaker Apr 14, 2023

Uh oh!

doombeaker Apr 14, 2023

Uh oh!

brandonliu2 Apr 17, 2023

Uh oh!

brandonliu2 commented Apr 16, 2023

Uh oh!

Uh oh!

	- 需要注意的是，在进行分布式并行训练时，代码中规定的`BATCH_SIZE`为每一台机器的本地值而非`GLOBAL_BATCH_SIZE`,故上述代码单机双卡`BATCH_SIZE=64`的训练效果与单机单卡`BATCH_SIZE=128`一致。
	- 需要注意的是，在进行分布式并行训练时，代码中规定的 `BATCH_SIZE` 为每一台机器的本地值而非`GLOBAL_BATCH_SIZE`,故上述代码单机双卡 `BATCH_SIZE=64` 的训练效果与单机单卡 `BATCH_SIZE=128` 一致。

Update 05_ddp.md #525

Are you sure you want to change the base?

Update 05_ddp.md #525

Uh oh!

Conversation

XuHu0529 commented Mar 1, 2023

Uh oh!

Uh oh!

doombeaker commented Mar 1, 2023

Uh oh!

Uh oh!

brandonliu2 commented Apr 11, 2023 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

doombeaker commented Apr 12, 2023

Uh oh!

doombeaker commented Apr 14, 2023

Uh oh!

doombeaker left a comment

Choose a reason for hiding this comment

Uh oh!

doombeaker Apr 14, 2023

Choose a reason for hiding this comment

Uh oh!

doombeaker Apr 14, 2023

Choose a reason for hiding this comment

Uh oh!

brandonliu2 Apr 17, 2023

Choose a reason for hiding this comment

Uh oh!

brandonliu2 commented Apr 16, 2023

Uh oh!

Uh oh!

brandonliu2 commented Apr 11, 2023 •

edited

Loading