比赛介绍

比赛地址，提供了传统数据挖掘(tabular data)， CV和NLP相关比赛，其中以NLP的比赛居多。

赛题一

给定金融类相关消息的title和content，判断消息的情感极性(正和负)，抽取正负情感对应的实体词。

数据规模：训练集数据量1万条，测试集数据量1万条。

赛题二

数据示例：

“text”：“赚赚熊是什么？买的便宜，赚的容易！自购省钱，分享赚钱！它是一款集CPS+CPA+社区拼购+淘宝+京东+自营商城+本地生活服务+教育+金融+旅游+实体连锁店等的App，零投资，零囤货，不改变任何人的消费习惯，让既省身，又赚钱，花你本该花的钱，赚你原本赚不到的钱由会坤集团全力打造的赚赚熊平台，不需”,

“unknownEntities”：[“赚赚熊”,“会坤集团”]

数据规模：训练集数据量1万条，测试集数据量1万条。

赛题三

互联网新闻情感分析

数据来源：新闻网，微信，博客，贴吧等。

数据规模：没有明确提及数据规模。

赛题四

“技术需求”与“技术成果”项目之间关联度计算模型

输入：

技术成果的标题+技术成果的具体内容

技术需求的标题+技术需求的具体内容

关联度：无相关/弱相关/较强相关/强相关

思路分析

赛题一：数据量应该是够的；大胆的用BERT吧(不一定要CRF);情感分析和实体识别是两件事件，直观上分析joint的方式可能并不一定有效；

赛题二：赛题一处理情感分类的部分，命名实体识别的模型可以尝试用于该题，有惊喜；(我不会告诉你我是怎么知道的)

赛题三：没啥可以讲的。如果数据集规模较大，还是比较有价值的；

赛题四：传统句子matching的问题；

强调一下：对于多数比赛，可选建模方式固定。所以，真正的挑战可能并不在于建模方式，而是在于对数据(业务)本身的理解。如果考虑到落地，那么将面临来自真实场景下的数据的更大的挑战。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

2019_CCF大数据与计算智能大赛.md

2019_CCF大数据与计算智能大赛.md

比赛介绍

赛题一

赛题二

赛题三

赛题四

思路分析

Files

2019_CCF大数据与计算智能大赛.md

Latest commit

History

2019_CCF大数据与计算智能大赛.md

File metadata and controls

比赛介绍

赛题一

赛题二

赛题三

赛题四

思路分析