Skip to content

Paddle Multimodal Integration and eXploration, supporting mainstream multi-modal tasks, including end-to-end large-scale multi-modal pretrain models and diffusion model toolbox. Equipped with high performance and flexibility.

License

Notifications You must be signed in to change notification settings

Xiaobin-Lu/PaddleMIX

This branch is 2 commits ahead of, 180 commits behind PaddlePaddle/PaddleMIX:develop.

Folders and files

NameName
Last commit message
Last commit date

Latest commit

1495056 · Oct 11, 2024
Aug 14, 2023
Jun 5, 2024
Jul 17, 2024
Aug 20, 2024
Sep 12, 2024
Jul 29, 2024
Oct 11, 2024
Oct 11, 2024
Oct 7, 2023
Aug 16, 2024
Aug 14, 2023
Aug 14, 2023
Sep 20, 2024
Jun 11, 2024
Jul 1, 2024
Jul 12, 2023
Jul 12, 2023
Jul 5, 2023
Oct 11, 2024
Oct 10, 2024
Jun 27, 2023
Oct 10, 2024
Oct 10, 2024
Aug 15, 2023
Sep 24, 2024
Aug 14, 2023

Repository files navigation



English Document

简介

PaddleMIX是基于飞桨的多模态大模型开发套件,聚合图像、文本、视频等多种模态,覆盖视觉语言预训练,文生图,文生视频等丰富的多模态任务。提供开箱即用的开发体验,同时满足开发者灵活定制需求,探索通用人工智能。

最新进展

🔥2024.10.11 发布PaddleMIX v2.1

  • 支持PaddleNLP 3.0 beta版本,抢先体验其最新功能。
  • 新增Qwen2-VLInternVL2Stable Diffusion 3 (SD3)等前沿模型。
  • 发布自研多模数据能力标签模型PP-InsCapTagger;可用于数据的分析和过滤,试验案例表明在保持模型效果的条件下可减少50%的数据量,大幅提高训练效率。
  • 多模态大模型InternVL2、LLaVA、SD3、SDXL适配昇腾910B,提供国产计算芯片上的训推能力。

2024.09.11 更新

  • 新增Qwen2-VL、InternVL2、SD3等模型

2024.07.25 发布PaddleMIX v2.0

  • 多模态理解:新增LLaVA系列,Qwen-VL等;新增Auto模块统一SFT训练流程;新增mixtoken训练策略,SFT吞吐量提升5.6倍。
  • 多模态生成:发布PPDiffusers 0.24.1版本,支持视频生成能力,文生图模型新增LCM。新增飞桨版peft,accelerate后端。提供基于飞桨开发的ComfyUI插件。
  • 多模态数据处理工具箱DataCopilot:支持自定义数据结构,数据转换,离线格式检查;支持基本的统计信息,数据可视化功能。

2023.10.7 发布 PaddleMIX v1.0

  • 新增图文预训练模型分布式训练能力,BLIP-2支持千亿规模训练
  • 新增跨模态应用流水线AppFlow,一键支持自动标注,图像编辑,音生图等11种跨模态应用
  • PPDiffusers发布 0.19.3 版本,新增SDXL及相关任务

主要特性

  • 丰富的多模态功能: 覆盖图文预训练,文生图,跨模态视觉任务,实现图像编辑、图像描述、数据标注等多样功能
  • 简洁的开发体验: 模型统一开发接口,高效实现自定义模型开发和功能实现
  • 高效的训推流程: 全量模型打通训练推理一站式开发流程,BLIP-2,Stable Diffusion等重点模型训推性能业界领先
  • 超大规模训练支持: 可训练千亿规模图文预训练模型,百亿规模文生图底座模型

任务展示

  • 视频Demo展示(video Demo)
PaddleMix.mp4

安装步骤

1. 克隆PaddleMIX仓库

git clone https://github.com/PaddlePaddle/PaddleMIX
cd PaddleMIX

2. 创建虚拟环境

conda create -n paddlemix python=3.10 -y
conda activate paddlemix

3. 安装PaddlePaddle

方法 1: 一键安装(推荐)

  • CUDA 11.x或12.3
  • PaddlePaddle 3.0.0b1
sh build_paddle_env.sh

方法 2: 手动安装

关于PaddlePaddle安装的详细教程请查看Installation

4. 安装依赖

方法 1: 一键安装(推荐)

运行以下命令来自动安装所有必要的依赖:

sh build_env.sh

方法 2: 手动安装(请参考 build_env.sh)

注:ppdiffusers部分模型需要依赖 CUDA 11.2 及以上版本,如果本地机器不符合要求,建议前往 AI Studio 进行模型训练、推理任务。

如果希望使用bf16训练推理,请使用支持bf16的GPU,如A100。

教程

特色应用

  1. ComfyUI创作工作流
  1. 艺术风格二维码模型
  1. Mix叠图

模型库

多模态理解 多模态生成
  • 图文预训练
  • 开放世界视觉模型
  • 更多模态预训练模型
  • 文生图
  • 文生视频
  • 音频生成
  • 更多模型能力,可参考模型能力矩阵

    社区交流

    • 微信扫描二维码并填写问卷,即可加入交流群与众多社区开发者以及官方团队深度交流。

    许可证书

    本项目的发布受Apache 2.0 license许可认证。

    About

    Paddle Multimodal Integration and eXploration, supporting mainstream multi-modal tasks, including end-to-end large-scale multi-modal pretrain models and diffusion model toolbox. Equipped with high performance and flexibility.

    Resources

    License

    Stars

    Watchers

    Forks

    Releases

    No releases published

    Packages

    No packages published

    Languages

    • Python 97.3%
    • Shell 1.5%
    • Other 1.2%