从pdf解析出来的内容少了一大段话 #413

ytcpub · 2024-08-13T08:23:20Z

Description of the bug | 错误描述

第四页： “A simplified model of the hypothalamic neuropeptide circuitry in response to starvation (A) and cancer anorexia-cachexia。。。”这大段图片注释文字消失了，0.6， 0.7版本均有这个问题

How to reproduce the bug | 如何复现

magic-pdf -p CA1_origin.pdf -o CA1

CA1_origin.pdf

Operating system | 操作系统

Linux

Python version | Python 版本

3.10

Software version | 软件版本 (magic-pdf --version)

0.6.x

Device mode | 设备模式

cpu

myhloli · 2024-08-13T08:31:59Z

目前的图片处理规则是一张图只能绑定一块caption，这张图上面下面各有一个caption

根据距离较近的原则，上面的caption和图片绑定成了一个整体的block，下面的caption在处理时被舍弃掉了。
目前这个结果是符合预期的。
关于这种双caption的图片，我们之后会讨论有没有其他更好的处理方案。

ytcpub · 2024-08-13T08:44:27Z

感觉这是个bug，即使没匹配成caption ，这么一大段有意义的内容也不应该丢掉，当作一个普通段落感觉更为合理

myhloli · 2024-08-13T08:56:13Z

感觉这是个bug，即使没匹配成caption ，这么一大段有意义的内容也不应该丢掉，当作一个普通段落感觉更为合理

有一些nlp的需求，是不期望在结果中看到caption的，所以需要将caption和图片绑定并在nlp的输出中移除。如果当成文本锻炼处理，就会影响nlp的准确性。

ytcpub · 2024-08-13T10:08:19Z

感觉这是个bug，即使没匹配成caption ，这么一大段有意义的内容也不应该丢掉，当作一个普通段落感觉更为合理

有一些nlp的需求，是不期望在结果中看到caption的，所以需要将caption和图片绑定并在nlp的输出中移除。如果当成文本锻炼处理，就会影响nlp的准确性。

不同意见，这么一大段话，本就是有完整语义的即使不和其他段落或者图片表格关联起来，也不应该丢弃，这样会导致文章内容缺失，它不是那种超短句
这种场景挺多的，Fig和注释分开写的这种，类似table的footer

myhloli · 2024-08-13T10:30:18Z

感觉这是个bug，即使没匹配成caption ，这么一大段有意义的内容也不应该丢掉，当作一个普通段落感觉更为合理

有一些nlp的需求，是不期望在结果中看到caption的，所以需要将caption和图片绑定并在nlp的输出中移除。如果当成文本锻炼处理，就会影响nlp的准确性。

不同意见，这么一大段话，本就是有完整语义的即使不和其他段落或者图片表格关联起来，也不应该丢弃，这样会导致文章内容缺失，它不是那种超短句这种场景挺多的，Fig和注释分开写的这种，类似table的footer

是的，table的footnote在nlp场景也是需要丢弃的，目前来看这个案例有些像table footnote引申出来的figure footnote。
移除这些文字的原因主要是因为这些文本影响了前后正文语义连贯性。

ytcpub · 2024-08-14T12:49:24Z

感觉这是个bug，即使没匹配成caption ，这么一大段有意义的内容也不应该丢掉，当作一个普通段落感觉更为合理

有一些nlp的需求，是不期望在结果中看到caption的，所以需要将caption和图片绑定并在nlp的输出中移除。如果当成文本锻炼处理，就会影响nlp的准确性。

不同意见，这么一大段话，本就是有完整语义的即使不和其他段落或者图片表格关联起来，也不应该丢弃，这样会导致文章内容缺失，它不是那种超短句这种场景挺多的，Fig和注释分开写的这种，类似table的footer

是的，table的footnote在nlp场景也是需要丢弃的，目前来看这个案例有些像table footnote引申出来的figure footnote。移除这些文字的原因主要是因为这些文本影响了前后正文语义连贯性。

有没有什么地方可以控制它不丢弃？或者已丢弃的内容放在什么地方json单独存储？这样对不同的用户需求来说用户可以自己决定用还是不用

myhloli · 2024-10-25T09:32:24Z

已修复
#785

ytcpub added the bug Something isn't working label Aug 13, 2024

myhloli closed this as completed Oct 25, 2024

myhloli mentioned this issue Oct 25, 2024

refactor(parse_core): improve image and table block handling #785

Merged

6 tasks

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

从pdf解析出来的内容少了一大段话 #413

从pdf解析出来的内容少了一大段话 #413

ytcpub commented Aug 13, 2024

myhloli commented Aug 13, 2024

ytcpub commented Aug 13, 2024

myhloli commented Aug 13, 2024

ytcpub commented Aug 13, 2024

myhloli commented Aug 13, 2024 •

edited

Loading

ytcpub commented Aug 14, 2024

myhloli commented Oct 25, 2024

从pdf解析出来的内容少了一大段话 #413

从pdf解析出来的内容少了一大段话 #413

Comments

ytcpub commented Aug 13, 2024

Description of the bug | 错误描述

How to reproduce the bug | 如何复现

Operating system | 操作系统

Python version | Python 版本

Software version | 软件版本 (magic-pdf --version)

Device mode | 设备模式

myhloli commented Aug 13, 2024

ytcpub commented Aug 13, 2024

myhloli commented Aug 13, 2024

ytcpub commented Aug 13, 2024

myhloli commented Aug 13, 2024 • edited Loading

ytcpub commented Aug 14, 2024

myhloli commented Oct 25, 2024

myhloli commented Aug 13, 2024 •

edited

Loading