-
Notifications
You must be signed in to change notification settings - Fork 7.8k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
PPStructure版面分析得到的结果,bbox里OCR的结果缺失最后一行 #10270
Comments
有相同的问题,同问 |
经过测试,结论是ocr性能与图片分辨率强相关,pdf转图片的过程中将图片提升每个尺寸的缩放系数,生成分辨率提高的图像,ocr效果提升。但是具体效果与缩放系数相关,这里有推荐的设置吗? |
经过实验,PPStructure版面分析的过程中,先将PDF转换为图片,其中不同分辨率会导致ocr的效果不稳定,底层的ocr模型对分辨率的鲁棒性很差。 以下为原始PDF文档: 以第三页为例测试,
PDF转图片每个尺寸缩放系数为2测试,
PDF转图片每个尺寸缩放系数为4测试,
虽然目前可以在PDF转图片的时候采用更大的缩放系数,但是会带来更长的时间消耗。而每个尺寸缩放的实验中,整页PDF直接用paddleocr都基本能识别所有文字,但是用PPStructure版面分析的pipeline中进行的OCR却效果很差,这里该如何解决? |
推测为PPStructure得到了版面分析的结果后,对各个块的图进行OCR,有一个放大的预处理,导致像素失真,而OCR对缩放像素失真的鲁棒性很差。 那么如何在OCR的对图片预处理修改,不进行导致像素失真的缩放操作?有什么参数可以控制OCR对输入图片的的resize吗? |
make |
mark |
can someone share sample code to get layout analysis using different models present at |
you can download model, then change model dir: |
mark |
1 similar comment
mark |
我也遇到了同样的问题,请问大佬PDF转图片然后进行缩放是如何做的? |
但是使用V3的模型,PPstructure在OCR的过程中,会比 v4的模型效果好一些。 |
就是PPStructure内置的OCR的缩放问题导致的,这得等官方解决。我采取了折中的办法,只检测出各块bbox位置,不使用PPStructure内置的OCR,然后用另外单独的PaddleOCR解析出所有行的bbox,结合一下过滤 |
请问内置的ocr的缩放参数是哪一个?我也遇到这个问题,不知道如何修改 |
缩放只是PPStructure内置版面分析后处理的问题,有时OCR识别不出来的情况,放大有可能能识别出来一点,但也不太稳定。我没用缩放,参考上一条回复,OCR单独做,和layout的各类块结合一下过滤 |
我也遇到了同样的问题,参考 @lycfight (感谢🙏)的思路对 PaddleOCR 进行了非官方修复:
安装该修复版本: pip install git+https://github.com/RussellLuo/PaddleOCR.git@hotfix-ppstructure-ocr 使用说明: # 官方命令:paddleocr --image_dir=ppstructure/docs/table/1.png --type=structure
paddleocr --image_dir=ppstructure/docs/table/1.png --type=structurex 如果大家也遇到了这个问题,希望这个修复版本能够起到缓解作用。最终,还是期待官方的解决方案! |
大佬你修复的版本PyMuPDF是没有版本限制了吗?我现在有个东西要用1.23.1的,但是PaddleOCR会冲突。 |
mark |
推测是PDF转image时的缩放系数导致图片分辨率过低的问题,修改ppcor.utils.utility.py 第109行开始: elif os.path.basename(img_path)[-3:].lower() == 'pdf':
|
PaddleOCR 正在经历从一个企业开源项目转型为一个完全社区驱动的项目的过程中。以后,社区就是官方。 😄 现在,社区有一个解决 long standing issues 的活动: #11906 ,如果你有兴趣,可以试着 upstream 你的改动到 PaddleOCR 仓库( main 分支 )。 |
@jzhang533 感谢认可,很荣幸可以给 PaddleOCR 社区作贡献!我尝试提交了一个 PR:#11916 🚀 |
请提供下述完整信息以便快速定位问题/Please provide the following information to quickly locate the problem
以如图页面版面分析的文本块可视化结果所示,该文本块OCR结果缺失最后一行
整体上看,版面分析的效果还不错,但是为什么文本块的OCR结果这么差,许多文本块的OCR结果缺失,未缺失的也缺最后一行
The text was updated successfully, but these errors were encountered: