We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
(此 ISSUE 为 PaddlePaddle Hackathon 活动的任务 ISSUE,更多详见PaddlePaddle Hackathon)
【任务说明】
任务标题:Paddle 分布式训练支持不均分数据输入
技术标签:分布式,C++,GPU,NCCL,图优化
任务难度:困难
详细描述:在GPU集合通信分布式训练模式下,若各卡上的输入数据不均等,会导致训练过程hang住的问题,即读取到数据的GPU卡发起集合通信操作(ncclAllReduce),但未读取到数据的GPU卡进程停掉,从而导致训练过程hang住。本任务的目的是探寻通用策略解决不均分输入数据条件下分布式训练过程hang住的问题,提高PaddlePaddle分布式训练框架的易用性。
【提交内容】
任务提案
任务 PR 到 Paddle
相关技术文档:包括调研报告、设计文档等
相关单测文件
【技术要求】
熟练掌握 C++ 、Python
熟练掌握GPU分布式训练原理和实现,了解并使用过NCCL等集合通信库
The text was updated successfully, but these errors were encountered:
JZ-LIANG
No branches or pull requests
(此 ISSUE 为 PaddlePaddle Hackathon 活动的任务 ISSUE,更多详见PaddlePaddle Hackathon)
【任务说明】
任务标题:Paddle 分布式训练支持不均分数据输入
技术标签:分布式,C++,GPU,NCCL,图优化
任务难度:困难
详细描述:在GPU集合通信分布式训练模式下,若各卡上的输入数据不均等,会导致训练过程hang住的问题,即读取到数据的GPU卡发起集合通信操作(ncclAllReduce),但未读取到数据的GPU卡进程停掉,从而导致训练过程hang住。本任务的目的是探寻通用策略解决不均分输入数据条件下分布式训练过程hang住的问题,提高PaddlePaddle分布式训练框架的易用性。
【提交内容】
任务提案
任务 PR 到 Paddle
相关技术文档:包括调研报告、设计文档等
相关单测文件
【技术要求】
熟练掌握 C++ 、Python
熟练掌握GPU分布式训练原理和实现,了解并使用过NCCL等集合通信库
The text was updated successfully, but these errors were encountered: