Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

从pdf解析出来的内容少了一大段话 #413

Closed
ytcpub opened this issue Aug 13, 2024 · 7 comments
Closed

从pdf解析出来的内容少了一大段话 #413

ytcpub opened this issue Aug 13, 2024 · 7 comments
Labels
bug Something isn't working

Comments

@ytcpub
Copy link

ytcpub commented Aug 13, 2024

Description of the bug | 错误描述

第四页: “A simplified model of the hypothalamic neuropeptide circuitry in response to starvation (A) and cancer anorexia-cachexia。。。”这大段图片注释文字 消失了,0.6, 0.7版本均有这个问题

How to reproduce the bug | 如何复现

magic-pdf -p CA1_origin.pdf -o CA1

CA1_origin.pdf

Operating system | 操作系统

Linux

Python version | Python 版本

3.10

Software version | 软件版本 (magic-pdf --version)

0.6.x

Device mode | 设备模式

cpu

@ytcpub ytcpub added the bug Something isn't working label Aug 13, 2024
@myhloli
Copy link
Collaborator

myhloli commented Aug 13, 2024

目前的图片处理规则是一张图只能绑定一块caption,这张图上面下面各有一个caption
image
根据距离较近的原则,上面的caption和图片绑定成了一个整体的block,下面的caption在处理时被舍弃掉了。
目前这个结果是符合预期的。
关于这种双caption的图片,我们之后会讨论有没有其他更好的处理方案。

@ytcpub
Copy link
Author

ytcpub commented Aug 13, 2024

感觉这是个bug, 即使没匹配成caption ,这么一大段有意义的内容也不应该丢掉,当作一个普通段落感觉更为合理

@myhloli
Copy link
Collaborator

myhloli commented Aug 13, 2024

感觉这是个bug, 即使没匹配成caption ,这么一大段有意义的内容也不应该丢掉,当作一个普通段落感觉更为合理

有一些nlp的需求,是不期望在结果中看到caption的,所以需要将caption和图片绑定并在nlp的输出中移除。如果当成文本锻炼处理,就会影响nlp的准确性。

@ytcpub
Copy link
Author

ytcpub commented Aug 13, 2024

感觉这是个bug, 即使没匹配成caption ,这么一大段有意义的内容也不应该丢掉,当作一个普通段落感觉更为合理

有一些nlp的需求,是不期望在结果中看到caption的,所以需要将caption和图片绑定并在nlp的输出中移除。如果当成文本锻炼处理,就会影响nlp的准确性。

不同意见,这么一大段话,本就是有完整语义的 即使不和其他段落或者图片表格关联起来,也不应该丢弃,这样会导致文章内容缺失,它不是那种超短句
这种场景挺多的 ,Fig和注释分开写的这种,类似table的footer

@myhloli
Copy link
Collaborator

myhloli commented Aug 13, 2024

感觉这是个bug, 即使没匹配成caption ,这么一大段有意义的内容也不应该丢掉,当作一个普通段落感觉更为合理

有一些nlp的需求,是不期望在结果中看到caption的,所以需要将caption和图片绑定并在nlp的输出中移除。如果当成文本锻炼处理,就会影响nlp的准确性。

不同意见,这么一大段话,本就是有完整语义的 即使不和其他段落或者图片表格关联起来,也不应该丢弃,这样会导致文章内容缺失,它不是那种超短句 这种场景挺多的 ,Fig和注释分开写的这种,类似table的footer

是的,table的footnote在nlp场景也是需要丢弃的,目前来看这个案例有些像table footnote引申出来的figure footnote。
移除这些文字的原因主要是因为这些文本影响了前后正文语义连贯性。

@ytcpub
Copy link
Author

ytcpub commented Aug 14, 2024

感觉这是个bug, 即使没匹配成caption ,这么一大段有意义的内容也不应该丢掉,当作一个普通段落感觉更为合理

有一些nlp的需求,是不期望在结果中看到caption的,所以需要将caption和图片绑定并在nlp的输出中移除。如果当成文本锻炼处理,就会影响nlp的准确性。

不同意见,这么一大段话,本就是有完整语义的 即使不和其他段落或者图片表格关联起来,也不应该丢弃,这样会导致文章内容缺失,它不是那种超短句 这种场景挺多的 ,Fig和注释分开写的这种,类似table的footer

是的,table的footnote在nlp场景也是需要丢弃的,目前来看这个案例有些像table footnote引申出来的figure footnote。 移除这些文字的原因主要是因为这些文本影响了前后正文语义连贯性。

有没有什么地方可以控制它不丢弃?或者已丢弃的内容放在什么地方json单独存储?这样对不同的用户需求来说用户可以自己决定用还是不用

@myhloli
Copy link
Collaborator

myhloli commented Oct 25, 2024

已修复
#785

image

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working
Projects
None yet
Development

No branches or pull requests

2 participants