PaddleFleetX v2.4.0
一、环境部署
- 为提升开发部署用户体验,全面适配了 PaddlePaddle 2.4,并发布了预安装镜像。
二、动态图训练
- 支持gradient accumulation。(#824)
- 修复dataloader int32 overflow的问题。(#818)
- 开源了 MoCo V1、V2 在 Imagenet1K 上的预训练和 linprob 微调代码以及Checkpoint,并达对齐精度
三、自动并行
- 在 345M、1.3B、6.7B 规模上支持 GPT 预训练模型的自动并行分布式训练,还支持了自动混合精度、分组切片、重计算与梯度累计优化策略。(#757 #801)
- 为了支持大模型分布式推理,实现了 GPT 生成模型的自适应转换,包括组网重切分与参数自动转换功能。(#815)
四、推理部署
- 优化GPT生成模型组网逻辑,添加自定义融合算子,减少动转静产生的同步操作,提升推理性能(#946)。
五、性能
- 在345M、1.3B、6.7B与175B模型上支持TensorFuse功能、适配使用FusedLinear、支持selective recompute、支持fp16 embedding。(#620,#626,#634,#635,#752)
- 在6.7B模型上适配sharding stage 2 reduce overlap、适配sharding stage 2 broadcast overlap、适配sharding stage 2多流broadcast。(#799,#812,#833)
- 在175B模型上适配interleave pipeline、适配pipeline recompute interval、支持pipeline非均匀且分的组网方式、支持sequence parallel策略。(#860,#881,#884,#734,#746,#819,#846,#854,#861)
- 相对于同等模型规模的Megatron(DeepSpeed),345M GPT 八卡性能超越竞品 14.2%、1.3B GPT 八卡性能超越竞品5.6%、6.7B GPT 16卡性能超越竞品11.7%、175B GPT 128卡性能超越竞品 0.4%。
六、调试工具
七、模型