Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

PPStructure版面分析得到的结果,bbox里OCR的结果缺失最后一行 #10270

Closed
lycfight opened this issue Jun 30, 2023 · 24 comments
Closed
Assignees
Labels
ppstructure ppstructure related issue PR is welcome status/close triaged this issue has been looked, and triaged.

Comments

@lycfight
Copy link

请提供下述完整信息以便快速定位问题/Please provide the following information to quickly locate the problem

  • 系统环境/System Environment:
  • 版本号/Version:Paddle: PaddleOCR: 问题相关组件/Related components:
  • 运行指令/Command Code:
  • 完整报错/Complete Error Message:
    屏幕截图 2023-06-30 185505
    以如图页面版面分析的文本块可视化结果所示,该文本块OCR结果缺失最后一行
    屏幕截图 2023-06-30 185951
    整体上看,版面分析的效果还不错,但是为什么文本块的OCR结果这么差,许多文本块的OCR结果缺失,未缺失的也缺最后一行
@lycfight
Copy link
Author

lycfight commented Jul 5, 2023

经过简单可视化,显示layout结果的每个块的图,很多图里明显有文本,但是OCR结果要么没有识别出任何文字,要么就缺行
屏幕截图 2023-07-05 150940

@WilliamQf-AI
Copy link
Contributor

WilliamQf-AI commented Jul 5, 2023

有相同的问题,同问
#10097

@lycfight
Copy link
Author

lycfight commented Jul 5, 2023

我将左下角的文本块的图单独拿出来,使用paddleocr识别,结果竟然识别不出来这种最简单的case纯文本的图
屏幕截图 2023-07-05 160016
result 0

@lycfight
Copy link
Author

lycfight commented Jul 5, 2023

经过测试,结论是ocr性能与图片分辨率强相关,pdf转图片的过程中将图片提升每个尺寸的缩放系数,生成分辨率提高的图像,ocr效果提升。但是具体效果与缩放系数相关,这里有推荐的设置吗?
import fitz # fitz就是pip install PyMuPDF def pdf2img(pdf_path, image_dir): pdfDoc = fitz.open(pdf_path) for pg in range(pdfDoc.pageCount): page = pdfDoc[pg] rotate = int(0) # 每个尺寸的缩放系数为4,这将为我们生成分辨率提高4的图像。 # 此处若是不做设置,默认图片大小为:792X612, dpi=96 zoom_x = 4 # (1.33333333-->1056x816) (2-->1584x1224) zoom_y = 4 mat = fitz.Matrix(zoom_x, zoom_y).preRotate(rotate) pix = page.getPixmap(matrix=mat, alpha=False) if not os.path.exists(image_path): # 判断存放图片的文件夹是否存在 os.makedirs(image_path) # 若图片文件夹不存在就创建 pix.writePNG(image_path + '/' + 'images_%s.png' % pg) # 将图片写入指定的文件夹内

@lycfight
Copy link
Author

lycfight commented Jul 6, 2023

经过实验,PPStructure版面分析的过程中,先将PDF转换为图片,其中不同分辨率会导致ocr的效果不稳定,底层的ocr模型对分辨率的鲁棒性很差。

以下为原始PDF文档:
基于会话的推荐方法综述.pdf

以第三页为例测试,

  • 直接使用paddleocr可以识别所有文字:
    result_1_ocr
  • 使用PPStructure,版面分析后OCR结果很差:
    result_1
  • PPStructure结果中的'img'字段为版面分析块的图,将左下角的文本块对应的图保存:
    result_1 0
  • 单独用paddleocr识别,完全识别不出来:
    result_1 0 _ocr

PDF转图片每个尺寸缩放系数为2测试,

  • 直接使用paddleocr可以识别所有文字:
    result_2_ocr
  • 使用PPStructure,版面分析后OCR结果有提升,但是左列中间文本块最后一行识别出错,最下面两个文本块丢失最后一行:
    result_2
  • PPStructure结果中的'img'字段为版面分析块的图,将左下角的文本块对应的图保存:
    result_2 0
  • 单独用paddleocr识别,丢失最后一行:
    result_2 0 _ocr

PDF转图片每个尺寸缩放系数为4测试,

  • 直接使用paddleocr可以识别所有文字:
    result_4_ocr

  • 使用PPStructure,版面分析后OCR结果有提升,不过之前能识别出来的标题,更高的分辨率反而识别不出来了
    result_4

  • PPStructure结果中的'img'字段为版面分析块的图,将左下角的文本块对应的图保存:
    result_4 0

  • 单独用paddleocr识别,基本能够识别:
    result_4 0 _ocr

  • PDF转图片每个尺寸缩放系数为8测试,

  • 直接使用paddleocr可以识别所有文字:
    result_8_ocr

  • 使用PPStructure,版面分析后OCR结果基本正确:
    result_8

  • PPStructure结果中的'img'字段为版面分析块的图,将左下角的文本块对应的图保存:
    result_8 0

  • 单独用paddleocr识别,基本能够识别:
    result_8 0 _ocr

虽然目前可以在PDF转图片的时候采用更大的缩放系数,但是会带来更长的时间消耗。而每个尺寸缩放的实验中,整页PDF直接用paddleocr都基本能识别所有文字,但是用PPStructure版面分析的pipeline中进行的OCR却效果很差,这里该如何解决?

@lycfight
Copy link
Author

lycfight commented Jul 7, 2023

经过实验,PPStructure版面分析的过程中,先将PDF转换为图片,其中不同分辨率会导致ocr的效果不稳定,底层的ocr模型对分辨率的鲁棒性很差。

以下为原始PDF文档: 基于会话的推荐方法综述.pdf

以第三页为例测试,

  • 直接使用paddleocr可以识别所有文字:
    result_1_ocr
  • 使用PPStructure,版面分析后OCR结果很差:
    result_1
  • PPStructure结果中的'img'字段为版面分析块的图,将左下角的文本块对应的图保存:
    result_1 0
  • 单独用paddleocr识别,完全识别不出来:
    result_1 0 _ocr

PDF转图片每个尺寸缩放系数为2测试,

  • 直接使用paddleocr可以识别所有文字:
    result_2_ocr
  • 使用PPStructure,版面分析后OCR结果有提升,但是左列中间文本块最后一行识别出错,最下面两个文本块丢失最后一行:
    result_2
  • PPStructure结果中的'img'字段为版面分析块的图,将左下角的文本块对应的图保存:
    result_2 0
  • 单独用paddleocr识别,丢失最后一行:
    result_2 0 _ocr

PDF转图片每个尺寸缩放系数为4测试,

  • 直接使用paddleocr可以识别所有文字:
    result_4_ocr
  • 使用PPStructure,版面分析后OCR结果有提升,不过之前能识别出来的标题,更高的分辨率反而识别不出来了
    result_4
  • PPStructure结果中的'img'字段为版面分析块的图,将左下角的文本块对应的图保存:
    result_4 0
  • 单独用paddleocr识别,基本能够识别:
    result_4 0 _ocr
  • PDF转图片每个尺寸缩放系数为8测试,
  • 直接使用paddleocr可以识别所有文字:
    result_8_ocr
  • 使用PPStructure,版面分析后OCR结果基本正确:
    result_8
  • PPStructure结果中的'img'字段为版面分析块的图,将左下角的文本块对应的图保存:
    result_8 0
  • 单独用paddleocr识别,基本能够识别:
    result_8 0 _ocr

虽然目前可以在PDF转图片的时候采用更大的缩放系数,但是会带来更长的时间消耗。而每个尺寸缩放的实验中,整页PDF直接用paddleocr都基本能识别所有文字,但是用PPStructure版面分析的pipeline中进行的OCR却效果很差,这里该如何解决?

  • 手动截取一张包含左下角文本块的图,周围包含空白,以防OCR的放大预处理导致像素失真,单独用paddleocr识别,基本能识别:
    屏幕截图 2023-07-06 151852
    result 0 _screen_ocr

推测为PPStructure得到了版面分析的结果后,对各个块的图进行OCR,有一个放大的预处理,导致像素失真,而OCR对缩放像素失真的鲁棒性很差。

那么如何在OCR的对图片预处理修改,不进行导致像素失真的缩放操作?有什么参数可以控制OCR对输入图片的的resize吗?

@stone-98
Copy link

make

@magicleo
Copy link

mark

@mllife
Copy link

mllife commented Jul 25, 2023

can someone share sample code to get layout analysis using different models present at
https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/ppstructure/docs/models_list_en.md

@lycfight
Copy link
Author

lycfight commented Jul 26, 2023

@mllife
Copy link

mllife commented Jul 26, 2023

@lycfight , its not working I shared the issue here - #10476 please take a look

@Jonsun-N
Copy link

mark

1 similar comment
@samuelbaba
Copy link

mark

@BrownTen
Copy link

我也遇到了同样的问题,请问大佬PDF转图片然后进行缩放是如何做的?
我是将PDF用fitz读取获得每一页,然后将每个Page 获取他们的 pixmap,再通过iobytes用cv 获取到图片。

@BrownTen
Copy link

我也遇到了同样的问题,请问大佬PDF转图片然后进行缩放是如何做的? 我是将PDF用fitz读取获得每一页,然后将每个Page 获取他们的 pixmap,再通过iobytes用cv 获取到图片。

但是使用V3的模型,PPstructure在OCR的过程中,会比 v4的模型效果好一些。

@lycfight
Copy link
Author

我也遇到了同样的问题,请问大佬PDF转图片然后进行缩放是如何做的? 我是将PDF用fitz读取获得每一页,然后将每个Page 获取他们的 pixmap,再通过iobytes用cv 获取到图片。

就是PPStructure内置的OCR的缩放问题导致的,这得等官方解决。我采取了折中的办法,只检测出各块bbox位置,不使用PPStructure内置的OCR,然后用另外单独的PaddleOCR解析出所有行的bbox,结合一下过滤

@harvinyou
Copy link

我也遇到了同样的问题,请问大佬PDF转图片进行缩放是如何做的?我等于PDF用fitz读取每一页,然后将每一页获取他们的像素图,再通过iobytes用cv获取到图片。

就是PPStructure内置的OCR的缩放问题导致的,这得等官方解决。我采取了折中的办法,只检测出各块bbox位置,不使用PPStructure内置的OCR,用另外单独的PaddleOCR解析出所有行的bbox,结合一下过滤

请问内置的ocr的缩放参数是哪一个?我也遇到这个问题,不知道如何修改

@lycfight
Copy link
Author

lycfight commented Dec 1, 2023

我也遇到了同样的问题,请问大佬PDF转图片进行缩放是如何做的?我等于PDF用fitz读取每一页,然后将每一页获取他们的像素图,再通过iobytes用cv获取到图片。

就是PPStructure内置的OCR的缩放问题导致的,这得等官方解决。我采取了折中的办法,只检测出各块bbox位置,不使用PPStructure内置的OCR,用另外单独的PaddleOCR解析出所有行的bbox,结合一下过滤

请问内置的ocr的缩放参数是哪一个?我也遇到这个问题,不知道如何修改

缩放只是PPStructure内置版面分析后处理的问题,有时OCR识别不出来的情况,放大有可能能识别出来一点,但也不太稳定。我没用缩放,参考上一条回复,OCR单独做,和layout的各类块结合一下过滤

RussellLuo added a commit to RussellLuo/PaddleOCR that referenced this issue Feb 28, 2024
@RussellLuo
Copy link
Contributor

我也遇到了同样的问题,参考 @lycfight (感谢🙏)的思路对 PaddleOCR 进行了非官方修复:

安装该修复版本:

pip install git+https://github.com/RussellLuo/PaddleOCR.git@hotfix-ppstructure-ocr

使用说明:

# 官方命令:paddleocr --image_dir=ppstructure/docs/table/1.png --type=structure
paddleocr --image_dir=ppstructure/docs/table/1.png --type=structurex

如果大家也遇到了这个问题,希望这个修复版本能够起到缓解作用。最终,还是期待官方的解决方案!

@jyyang621
Copy link

我也遇到了同样的问题,参考 @lycfight (感谢🙏)的思路对 PaddleOCR 进行了非官方修复:

安装该修复版本:

pip install git+https://github.com/RussellLuo/PaddleOCR.git@hotfix-ppstructure-ocr

使用说明:

# 官方命令:paddleocr --image_dir=ppstructure/docs/table/1.png --type=structure
paddleocr --image_dir=ppstructure/docs/table/1.png --type=structurex

如果大家也遇到了这个问题,希望这个修复版本能够起到缓解作用。最终,还是期待官方的解决方案!

大佬你修复的版本PyMuPDF是没有版本限制了吗?我现在有个东西要用1.23.1的,但是PaddleOCR会冲突。

@ATP-BME
Copy link

ATP-BME commented Mar 6, 2024

mark

@ATP-BME
Copy link

ATP-BME commented Mar 6, 2024

推测是PDF转image时的缩放系数导致图片分辨率过低的问题,修改ppcor.utils.utility.py 第109行开始:

elif os.path.basename(img_path)[-3:].lower() == 'pdf':
import fitz
from PIL import Image, ImageFilter
imgs = []
with fitz.open(img_path) as pdf:
for pg in range(0, pdf.page_count):
page = pdf[pg]
## 提高PDF转换为图片时的分辨率,您可以通过调整fitz.Matrix中的缩放因子来实现。目前,代码中的缩放因子设置为2,这意味着图片的分辨率将是PDF的两倍。
# mat = fitz.Matrix(2, 2)
mat = fitz.Matrix(1, 1)
pm = page.get_pixmap(matrix=mat, alpha=False)

            # if width and height > 2000 pixels, don't enlarge the image
            if pm.width > 2000 and pm.height > 2000:
                pm = page.get_pixmap(matrix=fitz.Matrix(1, 1), alpha=False)
            else:
                scale = int(max(2000/pm.width,2000/pm.height))
                pm = page.get_pixmap(matrix=fitz.Matrix(scale, scale), alpha=False)
                print('convert PDF to image with width {} , height {}'.format(pm.width,pm.height))

            img = Image.frombytes("RGB", [pm.width, pm.height], pm.samples)
            # 应用锐化滤波器
            img = img.filter(ImageFilter.SHARPEN)

            img = cv2.cvtColor(np.array(img), cv2.COLOR_RGB2BGR)
            imgs.append(img)
        return imgs, False, True

@jzhang533
Copy link
Collaborator

如果大家也遇到了这个问题,希望这个修复版本能够起到缓解作用。最终,还是期待官方的解决方案!

PaddleOCR 正在经历从一个企业开源项目转型为一个完全社区驱动的项目的过程中。以后,社区就是官方。 😄

现在,社区有一个解决 long standing issues 的活动: #11906 ,如果你有兴趣,可以试着 upstream 你的改动到 PaddleOCR 仓库( main 分支 )。

@jzhang533 jzhang533 added triaged this issue has been looked, and triaged. ppstructure ppstructure related issue labels Apr 10, 2024
@RussellLuo
Copy link
Contributor

@jzhang533 感谢认可,很荣幸可以给 PaddleOCR 社区作贡献!我尝试提交了一个 PR:#11916 🚀

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
ppstructure ppstructure related issue PR is welcome status/close triaged this issue has been looked, and triaged.
Projects
None yet
Development

No branches or pull requests