Skip to content

Latest commit

 

History

History
39 lines (19 loc) · 2.63 KB

biendata_关于科研论文的三个比赛.md

File metadata and controls

39 lines (19 loc) · 2.63 KB

一.DigSci科学数据挖掘大赛2019

比赛地址

任务定义: 给定候选论文集,根据一句或一段科研描述,匹配3篇最相关的论文。

比赛意义: 直观地讲,写论文找参考文献很令人头疼,这个比赛可以帮你找参考文献。进一步地讲,在论文中,作者经常会引用其他论文,并对被引论文做出对应描述。

如果我们可以自动地理解、识别描述对应的被引论文,不仅可以加深对科研脉络的理解,还能在科研知识图谱科研自动问答系统自动摘要系统等领域有所进步。

想法延伸: 给定多篇论文,给出motivation的血缘谱系图。自己很早就有这个想法,在前几天也看到AMiner的唐杰组的同学类似的想法,如下:

img

二.OAG-WhoIsWho:论文的冷启动消歧

比赛地址

任务定义: 给定一堆拥有同名作者的论文,要求返回一组论文聚类,使得一个聚类内部的论文都是一个人的,不同聚类间的论文不属于一个人。

三.OAG-WhoIsWho:论文的增量消歧

比赛地址

任务定义: 给定一批新增论文以及系统已有的作者论文集,最终目的是把新增论文分配到正确的作者档案中。

总结

类似于AMiner,机器之心SOTA等关于科研的智能工具有一些,但是感觉这块的潜力还没有被充分挖掘出来,当然高质量的论文库是原因之一。每年一个科研单位为一些论文库支付的费用是非常昂贵的,但是服务的方式也多半是检索,这种利用的方式显然还不够高效。

此外,科研相关智能引擎为NLP技术的应用也提供了丰富的场景。知识图谱,自动问答,摘要等技术都可以用到。因此,自己也从很早就关注到这块内容。一方面是帮助自己解决问题,另一方面是帮助他人解决问题。

比如两个具体的问题:

(1)我老板经常吐槽,他的Google Scholar中的文章有些都不是他的。

(2)自己维护了一个PaperReading的repo,也就是说即使读论文,也需要自己一篇一篇地去看,在现今论文爆炸的年代,需要精读的文章不多,因此借助机器的力量自动检索,提取,可以帮助自己解决一些问题。这只是解决“读”的问题,“写”的问题,正是我司目前正在研究的问题。