比赛地址, 提供了传统数据挖掘(tabular data), CV和NLP相关比赛,其中以NLP的比赛居多。
给定金融类相关消息的title和content,判断消息的情感极性(正和负),抽取正负情感对应的实体词。
数据规模:训练集数据量1万条,测试集数据量1万条。
数据示例:
“text”:“赚赚熊是什么?买的便宜,赚的容易!自购省钱,分享赚钱!它是一款集CPS+CPA+社区拼购+淘宝+京东+自营商城+本地生活服务+教育+金融+旅游+实体连锁店等的App,零投资,零囤货,不改变任何人的消费习惯,让既省身,又赚钱,花你本该花的钱,赚你原本赚不到的钱由会坤集团全力打造的赚赚熊平台,不需”,
“unknownEntities”:[“赚赚熊”,“会坤集团”]
数据规模:训练集数据量1万条,测试集数据量1万条。
数据来源:新闻网,微信,博客,贴吧等。
数据规模:没有明确提及数据规模。
输入:
技术成果的标题+技术成果的具体内容
技术需求的标题+技术需求的具体内容
关联度:无相关/弱相关/较强相关/强相关
赛题一:数据量应该是够的;大胆的用BERT吧(不一定要CRF);情感分析和实体识别是两件事件,直观上分析joint的方式可能并不一定有效;
赛题二:赛题一处理情感分类的部分,命名实体识别的模型可以尝试用于该题,有惊喜;(我不会告诉你我是怎么知道的)
赛题三:没啥可以讲的。如果数据集规模较大,还是比较有价值的;
赛题四:传统句子matching的问题;
强调一下:对于多数比赛,可选建模方式固定。所以,真正的挑战可能并不在于建模方式,而是在于对数据(业务)本身的理解。如果考虑到落地,那么将面临来自真实场景下的数据的更大的挑战。