Releases: PaddlePaddle/PaddleFleetX
Releases · PaddlePaddle/PaddleFleetX
PaddleFleetX v2.4.1
PaddleFleetX v2.4.0
一、环境部署
- 为提升开发部署用户体验,全面适配了 PaddlePaddle 2.4,并发布了预安装镜像。
二、动态图训练
- 支持gradient accumulation。(#824)
- 修复dataloader int32 overflow的问题。(#818)
- 开源了 MoCo V1、V2 在 Imagenet1K 上的预训练和 linprob 微调代码以及Checkpoint,并达对齐精度
三、自动并行
- 在 345M、1.3B、6.7B 规模上支持 GPT 预训练模型的自动并行分布式训练,还支持了自动混合精度、分组切片、重计算与梯度累计优化策略。(#757 #801)
- 为了支持大模型分布式推理,实现了 GPT 生成模型的自适应转换,包括组网重切分与参数自动转换功能。(#815)
四、推理部署
- 优化GPT生成模型组网逻辑,添加自定义融合算子,减少动转静产生的同步操作,提升推理性能(#946)。
五、性能
- 在345M、1.3B、6.7B与175B模型上支持TensorFuse功能、适配使用FusedLinear、支持selective recompute、支持fp16 embedding。(#620,#626,#634,#635,#752)
- 在6.7B模型上适配sharding stage 2 reduce overlap、适配sharding stage 2 broadcast overlap、适配sharding stage 2多流broadcast。(#799,#812,#833)
- 在175B模型上适配interleave pipeline、适配pipeline recompute interval、支持pipeline非均匀且分的组网方式、支持sequence parallel策略。(#860,#881,#884,#734,#746,#819,#846,#854,#861)
- 相对于同等模型规模的Megatron(DeepSpeed),345M GPT 八卡性能超越竞品 14.2%、1.3B GPT 八卡性能超越竞品5.6%、6.7B GPT 16卡性能超越竞品11.7%、175B GPT 128卡性能超越竞品 0.4%。
六、调试工具
七、模型
PaddleFleetX v2.4.0rc
1、环境部署
开发支持包括 Docker/PyPI 等多种二次开发和部署环境,提升使用易用性,可被其他套件或平台安装集成
2、动态图训练
- 开源GPT大模型分布式训练代码及345M模型参数
- 开源了 ViT-B/16 在 Imagenet1K 上的预训练代码以及Checkpoint,并达到谷歌官方ViT公布的精度
- 开源Imagen模型代码,实现 Imagen 397M、2B 文图生成算法以及 256x256、1024x1024 2个超分扩散模型组网、训练、评估和推理功能
3、自动并行
实现GPT『动转静+自动并行』大模型训练,支持常见并行策略、优化策略和两者的任意组合使用,其中并行策略包括数据并行、张量并行、流水线并行和混合并行,优化策略包括重计算、混合精度(1/2/3)、梯度累加、Sharding(1/2/3)
4、推理部署
- 支持动转静模型导出和InferenceEngine推理部署通用能力
- 支持GPT系列模型导出和推理部署
5、量化压缩
- 支持动态图量化训练功能
- GPT-345M模型经过INT8量化,在LAMBDA任务上精度无损。(Baseline Accuracy: 44.17%; INT8量化后 Accuracy: 44.38%)
6、性能
- 训练:GPT-345M模型下,八卡性能超越竞品Megatron-LM 14.2%。GPT-1.3B模型下,八卡性能超越竞品Megatron-LM 5.6%
- 推理:Imagen对齐了 T5-11B 文本推理模型,性能超越 PyTorch 20%。解决 Imagen 1024x1024 长序列超分扩散模型显存占用过大的问题,模型吞吐提升35%
7、调试工具
覆盖包括分布式等多种调试需求,兼容VisualDL可视化工具,提升二次开发体验