【PaddlePaddle Hackathon】27、Paddle 分布式训练支持不均分数据输入 #35980

TCChenlong · 2021-09-23T07:36:17Z

（此 ISSUE 为 PaddlePaddle Hackathon 活动的任务 ISSUE，更多详见PaddlePaddle Hackathon）

【任务说明】

任务标题：Paddle 分布式训练支持不均分数据输入
技术标签：分布式，C++，GPU，NCCL，图优化
任务难度：困难
详细描述：在GPU集合通信分布式训练模式下，若各卡上的输入数据不均等，会导致训练过程hang住的问题，即读取到数据的GPU卡发起集合通信操作（ncclAllReduce），但未读取到数据的GPU卡进程停掉，从而导致训练过程hang住。本任务的目的是探寻通用策略解决不均分输入数据条件下分布式训练过程hang住的问题，提高PaddlePaddle分布式训练框架的易用性。

【提交内容】

【技术要求】

TCChenlong added the PaddlePaddle Hackathon label Sep 23, 2021

paddle-bot-old bot assigned JZ-LIANG Sep 23, 2021

PaddlePaddle deleted a comment from paddle-bot-old bot Sep 23, 2021

TCChenlong mentioned this issue Sep 23, 2021

【PaddlePaddle Hackathon】任务总览 #35940

Closed

paddle-bot-old bot closed this as completed Jan 11, 2023

paddle-bot bot added the status/close 已关闭 label Jan 11, 2023

Provide feedback