Skip to content

Latest commit

 

History

History
63 lines (30 loc) · 2.44 KB

2019_CCF大数据与计算智能大赛.md

File metadata and controls

63 lines (30 loc) · 2.44 KB

比赛介绍

比赛地址, 提供了传统数据挖掘(tabular data), CV和NLP相关比赛,其中以NLP的比赛居多

赛题一

金融信息负面及主体判定

给定金融类相关消息的title和content,判断消息的情感极性(正和负),抽取正负情感对应的实体词。

数据规模:训练集数据量1万条,测试集数据量1万条。

赛题二

识别文本中新兴金融实体

数据示例:

“text”:“赚赚熊是什么?买的便宜,赚的容易!自购省钱,分享赚钱!它是一款集CPS+CPA+社区拼购+淘宝+京东+自营商城+本地生活服务+教育+金融+旅游+实体连锁店等的App,零投资,零囤货,不改变任何人的消费习惯,让既省身,又赚钱,花你本该花的钱,赚你原本赚不到的钱由会坤集团全力打造的赚赚熊平台,不需”,

​“unknownEntities”:[“赚赚熊”,“会坤集团”]

数据规模:训练集数据量1万条,测试集数据量1万条。

赛题三

互联网新闻情感分析

数据来源:新闻网,微信,博客,贴吧等。

数据规模:没有明确提及数据规模。

赛题四

“技术需求”与“技术成果”项目之间关联度计算模型

输入:

技术成果的标题+技术成果的具体内容

技术需求的标题+技术需求的具体内容

关联度:无相关/弱相关/较强相关/强相关

思路分析

赛题一:数据量应该是够的;大胆的用BERT吧(不一定要CRF);情感分析和实体识别是两件事件,直观上分析joint的方式可能并不一定有效;

赛题二:赛题一处理情感分类的部分,命名实体识别的模型可以尝试用于该题,有惊喜;(我不会告诉你我是怎么知道的)

赛题三:没啥可以讲的。如果数据集规模较大,还是比较有价值的;

赛题四:传统句子matching的问题;

强调一下:对于多数比赛,可选建模方式固定。所以,真正的挑战可能并不在于建模方式,而是在于对数据(业务)本身的理解。如果考虑到落地,那么将面临来自真实场景下的数据的更大的挑战。