-
Notifications
You must be signed in to change notification settings - Fork 1.3k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
从pdf解析出来的内容少了一大段话 #413
Comments
感觉这是个bug, 即使没匹配成caption ,这么一大段有意义的内容也不应该丢掉,当作一个普通段落感觉更为合理 |
有一些nlp的需求,是不期望在结果中看到caption的,所以需要将caption和图片绑定并在nlp的输出中移除。如果当成文本锻炼处理,就会影响nlp的准确性。 |
不同意见,这么一大段话,本就是有完整语义的 即使不和其他段落或者图片表格关联起来,也不应该丢弃,这样会导致文章内容缺失,它不是那种超短句 |
是的,table的footnote在nlp场景也是需要丢弃的,目前来看这个案例有些像table footnote引申出来的figure footnote。 |
有没有什么地方可以控制它不丢弃?或者已丢弃的内容放在什么地方json单独存储?这样对不同的用户需求来说用户可以自己决定用还是不用 |
已修复 |
Description of the bug | 错误描述
第四页: “A simplified model of the hypothalamic neuropeptide circuitry in response to starvation (A) and cancer anorexia-cachexia。。。”这大段图片注释文字 消失了,0.6, 0.7版本均有这个问题
How to reproduce the bug | 如何复现
magic-pdf -p CA1_origin.pdf -o CA1
CA1_origin.pdf
Operating system | 操作系统
Linux
Python version | Python 版本
3.10
Software version | 软件版本 (magic-pdf --version)
0.6.x
Device mode | 设备模式
cpu
The text was updated successfully, but these errors were encountered: