Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

米奇不妙屋(PDF解析失败统一反馈到此) #6

Closed
MuiseDestiny opened this issue Dec 17, 2022 · 102 comments
Closed

米奇不妙屋(PDF解析失败统一反馈到此) #6

MuiseDestiny opened this issue Dec 17, 2022 · 102 comments

Comments

@MuiseDestiny
Copy link
Owner

因为是根据几篇PDF的规律写的解析,可能有些PDF的格式照顾不到,可以在此反馈。

可以反馈DOI或者文献链接。

@MuiseDestiny MuiseDestiny changed the title PDF解析失败反馈 米奇不妙屋 Dec 18, 2022
@Finn9
Copy link

Finn9 commented Dec 19, 2022

Doi:10.1039/D1SC07237D
文献链接:https://pubs.rsc.org/en/content/articlelanding/2022/sc/d1sc07237d

@MuiseDestiny
Copy link
Owner Author

10.1039/D1SC07237D
这个目前插件识别不了,打开之后点刷新交给crossref吧,看了下,它可以把多条分开
image

@zyx335588
Copy link

以下文献PDF解析失败:
文献1

以下文献PDF解析不全:
文献2

以下文献解析渲染行为异常:
文献
该文献共100篇参考文献,提示PDF解析失败,从Crossref获得100篇参考文献,但是侧边栏只渲染出21篇,而上方的提示则是"94/100条参考文献"

@MuiseDestiny
Copy link
Owner Author

以下文献PDF解析失败: 文献1

以下文献PDF解析不全: 文献2

以下文献解析渲染行为异常: 文献 该文献共100篇参考文献,提示PDF解析失败,从Crossref获得100篇参考文献,但是侧边栏只渲染出21篇,而上方的提示则是"94/100条参考文献"

感谢反馈,api可能会卡死,确实有这个bug

@MuiseDestiny
Copy link
Owner Author

image
三栏,太有挑战性了,之前的只能处理两栏(文献1和2是同一个)

image

太难了,几乎是重写了

@MuiseDestiny
Copy link
Owner Author

image
这是readpaper都识别不准的论文

@nooorris
Copy link

nooorris commented Dec 21, 2022

你好,目前使用最新版zotero(6.0.18),使用0.1.0版本插件(0.1.1版本插件安装后无法识别文献)。发现一个0.1.0版本存在以下小bug:解析文章的参考文献时部分参考文献会解析成别的文献。
例如这篇文章(DOI:10.1109/TSP.2022.3164183),文献[27][28]给出的悬浮窗结果都是别的文献而非末尾中真正参考文献的结果,但ctrl+点击后可以跳转到正确参考文献主页。
这篇文章在readpaper中是可以正确识别参考文献,没有上述问题。

@MuiseDestiny
Copy link
Owner Author

10.1109/TSP.2022.3164183

可能是提取参考文献标题(用于在readpaper中搜索)失败了导致的,我优化下

@MuiseDestiny
Copy link
Owner Author

image
image

**nooorris ** commented Dec 21, 2022

搜索标题是最准的,目前,插件提取标题能力还很差。
[28] J. Cavers, Mobile channel characteristics . Springer Science & BusinessMedia, 2006, vol. 555.
[28]可能认为Springer Science & BusinessMedia是标题。所以导致错误。

@MuiseDestiny MuiseDestiny pinned this issue Dec 21, 2022
@nooorris
Copy link

nooorris commented Dec 21, 2022

image image

**nooorris ** commented Dec 21, 2022

搜索标题是最准的,目前,插件提取标题能力还很差。 [28] J. Cavers, Mobile channel characteristics . Springer Science & BusinessMedia, 2006, vol. 555. [28]可能认为Springer Science & BusinessMedia是标题。所以导致错误。

你的这个[27][28]好像和我的提取的不一样,我的[27]是下面这样的,我用的是0.1.0版本。我发现0.1.0版本的在顺序上是对的,但具体内容可能会解析错。但用0.1.1版本会出现连顺序都错了的情况。
image
image

@MuiseDestiny MuiseDestiny changed the title 米奇不妙屋 米奇不妙屋(PDF解析失败统一反馈到此) Dec 21, 2022
@zhbery
Copy link

zhbery commented Dec 23, 2022

张 et al_2021_政府数据授权运营的实现机制与内在机理研究——以成都市为例.pdf
image
在中文文献中似乎经常会出现这种情况,不知道这些文字是怎么提取出来的哈哈哈~

@MuiseDestiny
Copy link
Owner Author

因为有些文献没有类似“参考文献”、“References”的截断词,我就重写了PDF识别逻辑。得到这样的结果我也是很懵的。后来加入了截断词,你截图这个用的应该不是最新的插件。

image

最新的是这样的。也是不全,原因是这个PDF不足够规范,但没关系,我会出手。

@MuiseDestiny
Copy link
Owner Author

张 et al_2021_政府数据授权运营的实现机制与内在机理研究——以成都市为例.pdf image 在中文文献中似乎经常会出现这种情况,不知道这些文字是怎么提取出来的哈哈哈~

image
修复了,感谢反馈

@niao004
Copy link

niao004 commented Dec 23, 2022

更新到最新的0.1.5。英文的已经识别的很好了,就是中文的很多识别不出来。
比如这个:
卵圆孔未闭的临床特征和预后影响因素分析.pdf

@MuiseDestiny
Copy link
Owner Author

更新到最新的0.1.5。英文的已经识别的很好了,就是中文的很多识别不出来。 比如这个: 卵圆孔未闭的临床特征和预后影响因素分析.pdf

PDF解析不分中英文,这篇是在连续的参考文献中穿插了表格,一般英文不会这么穿插,属于特殊情况。
我想想怎么处理。

@niao004
Copy link

niao004 commented Dec 24, 2022

好的,大佬您辛苦

PDF解析不分中英文,这篇是在连续的参考文献中穿插了表格,一般英文不会这么穿插,属于特殊情况。 我想想怎么处理。

@MuiseDestiny
Copy link
Owner Author

好的,大佬您辛苦

PDF解析不分中英文,这篇是在连续的参考文献中穿插了表格,一般英文不会这么穿插,属于特殊情况。 我想想怎么处理。

image
然后这个论文没有空格,也需要进一步处理

@MuiseDestiny
Copy link
Owner Author

好的,大佬您辛苦

PDF解析不分中英文,这篇是在连续的参考文献中穿插了表格,一般英文不会这么穿插,属于特殊情况。 我想想怎么处理。

image
笑死,根本分不开,试了下readpaper,它不仅分不开,也没自动跳过表格

@MuiseDestiny
Copy link
Owner Author

更新到最新的0.1.5。英文的已经识别的很好了,就是中文的很多识别不出来。 比如这个: 卵圆孔未闭的临床特征和预后影响因素分析.pdf

重新安装最新,就可以识别这篇还有类似的篇论文了,但是英文的单词间空格,没发分出来(不够规范)

@xiaodl813
Copy link

您好,这篇文献无法被识别:doi:10.37819/hb.001.001.0204
而且由于可能是新期刊,crossref也不能识别。
谢谢,如果需要更多的信息请联系我!

@zhbery
Copy link

zhbery commented Dec 24, 2022

image
姜 和 吴 - 2021 - 警惕伪创新:基层治理能力现代化进程中的偏差行为研究.pdf
虽然是中文文献,但是调用的却是crossref而不是知网的接口~

更新:我大概猜到原因了,因为这篇文章是直接从知网抓下来的,里面的doi字段填的是知网的独创doi,由于这一字段不是空的,可能被判定为英文文献了,不知道是不是这个原因。如果是这个原因造成的话,或许可以在解析的时候提前加一下判断,如果doi字段里面有cnki.issn之类的内容(例如10.15937/j.cnki.issn1001-8263.2016.05.008)就判定为中文文献。

@zhbery
Copy link

zhbery commented Dec 24, 2022

image
奔跑的大象:超特大城市的敏捷治理_于文轩.pdf

中文文献经常会出现这种参考文献的浮窗信息和实际条目对不上的情况,英文文献都正常的~

@MuiseDestiny
Copy link
Owner Author

10.37819/hb.001.001.0204

image
已修复

@MuiseDestiny
Copy link
Owner Author

issn1001

image
1.PDF解析修复,但[20][24]这样第一次见,只能这么显示了;2.DOI包含cnki或者issn会自动跳过;3.悬浮条目从readpaper查的,可能中文查的不准,以后可能从知网直接获取摘要。

@Rsweater
Copy link

Rsweater commented Mar 1, 2023

欧克 Thx !

@MMagicLoren
Copy link

目前版本打开中文文献总是会导致软件卡死

@MuiseDestiny
Copy link
Owner Author

MuiseDestiny commented Mar 5, 2023

@MMagicLoren

目前版本打开中文文献总是会导致软件卡死

把匹配本地文献关了试试,红框设置1
image

@MMagicLoren
Copy link

image
还是不可以,直接就把软件卡死了

@MuiseDestiny
Copy link
Owner Author

image 还是不可以,直接就把软件卡死了

那先用之前的版本吧,等我也遇到卡死,修复下,到时候@你

@MMagicLoren
Copy link

好的呢,谢谢

@he-hai
Copy link

he-hai commented Mar 5, 2023

丢失了中间部分参考文献 https://doi.org/10.1021/acs.jafc.2c09108

@MuiseDestiny
Copy link
Owner Author

目前版本打开中文文献总是会导致软件卡死

更新修复

@MMagicLoren
Copy link

6666

@MuiseDestiny
Copy link
Owner Author

丢失了中间部分参考文献 https://doi.org/10.1021/acs.jafc.2c09108

没有权限下载。

@MuiseDestiny
Copy link
Owner Author

丢失了中间部分参考文献 https://doi.org/10.1021/acs.jafc.2c09108

image

更新

@zhbery
Copy link

zhbery commented Mar 6, 2023

image
中文文献调用知网api查询时的报错,请问这个是什么引起的呢

@MuiseDestiny
Copy link
Owner Author

image 中文文献调用知网api查询时的报错,请问这个是什么引起的呢

尚未配置账号密码。知网研学的https://github.com/MuiseDestiny/zotero-reference/releases/tag/0.3.8

@MMagicLoren
Copy link

image
这是什么原因啊

@MuiseDestiny
Copy link
Owner Author

image 这是什么原因啊

用了api的结果,api信息就是这样,不全。

@GFDGIT
Copy link

GFDGIT commented Mar 7, 2023

image 中文文献调用知网api查询时的报错,请问这个是什么引起的呢

尚未配置账号密码。知网研学的https://github.com/MuiseDestiny/zotero-reference/releases/tag/0.3.8

我配置了账号密码,token也获取到,也是显示code is 500,是什么原因呢?

@MuiseDestiny
Copy link
Owner Author

MuiseDestiny commented Mar 7, 2023

image 中文文献调用知网api查询时的报错,请问这个是什么引起的呢

尚未配置账号密码。知网研学的https://github.com/MuiseDestiny/zotero-reference/releases/tag/0.3.8

我配置了账号密码,token也获取到,也是显示code is 500,是什么原因呢?

可以试试是否知网研学本身支不支持这篇文献。或者把文献的url清空,插件会过去最新的知网链接。老的知网链接会失败。

@GFDGIT
Copy link

GFDGIT commented Mar 7, 2023

可以试试是否知网研学本身支不支持这篇文献。或者把文献的url清空,插件会过去最新的知网链接。老的知网链接会失败。

url清空也是一样。而且,不知道出现了什么问题,我在网页版知网研学上登陆不了,我是先登录网页版验证了账号(很久没有用过了),然后才填到插件里面的,现在在网页上点登录没反应了。

@GFDGIT
Copy link

GFDGIT commented Mar 7, 2023

可以试试是否知网研学本身支不支持这篇文献。或者把文献的url清空,插件会过去最新的知网链接。老的知网链接会失败。

url清空也是一样。而且,不知道出现了什么问题,我在网页版知网研学上登陆不了,我是先登录网页版验证了账号(很久没有用过了),然后才填到插件里面的,现在在网页上点登录没反应了。

等了一会,刷新了网页又保持了登录状态。。。。

@GFDGIT
Copy link

GFDGIT commented Mar 7, 2023

可以试试是否知网研学本身支不支持这篇文献。或者把文献的url清空,插件会过去最新的知网链接。老的知网链接会失败。

url清空也是一样。而且,不知道出现了什么问题,我在网页版知网研学上登陆不了,我是先登录网页版验证了账号(很久没有用过了),然后才填到插件里面的,现在在网页上点登录没反应了。

等了一会,刷新了网页又保持了登录状态。。。。

在ref插件点刷新,是先code 401,然后500,然后网页登录状态又被顶下来了

@MuiseDestiny
Copy link
Owner Author

可以试试是否知网研学本身支不支持这篇文献。或者把文献的url清空,插件会过去最新的知网链接。老的知网链接会失败。

url清空也是一样。而且,不知道出现了什么问题,我在网页版知网研学上登陆不了,我是先登录网页版验证了账号(很久没有用过了),然后才填到插件里面的,现在在网页上点登录没反应了。

等了一会,刷新了网页又保持了登录状态。。。。

在ref插件点刷新,是先code 401,然后500,然后网页登录状态又被顶下来了

发一下失败的cnki链接

@GFDGIT
Copy link

GFDGIT commented Mar 7, 2023

发一下失败的cnki链接

这是先保存了PDF,然后用茉莉花抓取的链接
我试过删除url再刷新,依旧是code 500

@GFDGIT
Copy link

GFDGIT commented Mar 7, 2023

发一下失败的cnki链接

这是先保存了PDF,然后用茉莉花抓取的链接 我试过删除url再刷新,依旧是code 500

我发现似乎是不支持毕业论文,期刊论文可以获取成功

@MuiseDestiny
Copy link
Owner Author

MuiseDestiny commented Mar 7, 2023

发一下失败的cnki链接

这是先保存了PDF,然后用茉莉花抓取的链接 我试过删除url再刷新,依旧是code 500

我发现似乎是不支持毕业论文,期刊论文可以获取成功

是这样的。硕士论文知网研学本身就不支持。

@MuiseDestiny
Copy link
Owner Author

地点变更,请反馈到
#81

Repository owner locked as too heated and limited conversation to collaborators Mar 7, 2023
@MuiseDestiny MuiseDestiny unpinned this issue Mar 7, 2023
Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Projects
None yet
Development

No branches or pull requests