Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

PP-ChatOCRv3 是多模态的? #1984

Open
cqray1990 opened this issue Sep 11, 2024 · 2 comments
Open

PP-ChatOCRv3 是多模态的? #1984

cqray1990 opened this issue Sep 11, 2024 · 2 comments
Assignees

Comments

@cqray1990
Copy link

Checklist:

  1. 查找历史相关issue寻求解答
  2. 翻阅FAQ常见问题汇总和答疑
  3. 确认bug是否在新版本里还未修复
  4. 翻阅PaddleX 使用文档

描述问题

复现

  1. 您是否已经正常运行我们提供的教程

  2. 您是否在教程的基础上修改代码内容?还请您提供运行的代码

  3. 您使用的数据集是?

  4. 请提供您出现的报错信息及相关log

环境

  1. 请提供您使用的PaddlePaddle和PaddleX的版本号

  2. 请提供您使用的操作系统信息,如Linux/Windows/MacOS

  3. 请问您使用的Python版本是?

  4. 请问您使用的CUDA/cuDNN的版本号是?

@zhang-prog
Copy link
Collaborator

是的,可以输入图片和文本

@cuicheng01
Copy link
Collaborator

您好,PP-ChatOCRv3是一个多模态系统,但是对于具体的模型来说,除了LLM,其他的都是视觉模型,是一个语言大模型+视觉小模型的系统。这块未来会在PaddleX开源,敬请关注~

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants