-
Notifications
You must be signed in to change notification settings - Fork 1.3k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
自动生成书签功能增加按文本模式筛选标题 #16
Comments
有样本文件吗? |
茅台股份2020年 年报 https://www.moutaichina.com/maotaigf/resource/cms/article/408431/509361/2021033108591131837.pdf 年报格式很标准,麻烦大佬看下! |
我看了一下,后面的这个使用PDFPatcher很好办啊,找几个标题右键添加就可以了。但是茅台那个不太好办,因为它的次级标题和其它内容比较混杂。 |
对于类似茅台年报的文档,之前也有网友提议过,增加按文本模式(正则表达式)筛选内容的功能。 |
简单实现的话 我觉得是不是可以
|
我觉得这些简单的策略基本就满足大部分年报了 就可以了 |
目前使用的组件(mupdf)有其功能局限性,例如无法判断“是否粗体”,也无法判断颜色之类的样式。 |
不能判断粗体确实挺伤的,如果能判断粗体就很容易了 |
我用Foxit PDF Editor和mutools调试了下茅台年报的pdf,发现粗体文字有以下特征: 基于以上分析,应该可以通过这2个op的区别来区分普通还是粗体。 |
@mokacao 非常感谢您的参与,但实际情况不是你上面所说的那样的。 我得再花一些时间来分析是否有可能用 MuPDF 来解析文档的渲染过程。它目前提供的结构文本接口并不够用,要更深入地介入渲染过程(可能要借助 device)来获取所需要的信息。 |
哭求一个全部大写的条件。(其实更好的方法是提供一个自己可以输入正则的编辑框。) 祝所有母亲节日快乐! |
是的。有空再加上去。 |
最新的测试版已经支持输入正则表达式,但是对于一行文本有多种不同字体的情况还不能完美地处理。 |
年报格式稳定,二三级目录识别相对具有可行性,现在支持一级目录识别,可以支持一下二三级目录识别吗?
The text was updated successfully, but these errors were encountered: