中文文本分析相关资源汇总
资源名 | 地址 | 介绍 |
---|---|---|
微信公众号语料库 | https://github.com/SophonPlus/ChineseNlpCorpus | 搜集、整理、发布 中文 自然语言处理 语料/数据集,与 有志之士 共同 促进 中文 自然语言处理 的 发展。 |
中文公司名语料库 | https://github.com/wainshine/Company-Names-Corpus | 公司简称,缩写,品牌词,企业名。可用于中文分词、机构名实体识别。 |
微信公众号语料库 | https://github.com/nonamestreet/weixin_public_corpus | 数据量3G;纯文本,每行一篇,JSON格式。name是微信公众号名字,account是微信公众号ID,title是题目,content是正文。 |
多语言音频数据 | https://voice.mozilla.org/en/datasets | 多种语言音频数据,包括来自42,000名贡献者超过1,400小时的语音样本,涵github |
知识问答 | https://github.com/liuhuanyong/MiningZhiDaoQACorpus | 百度知道问答语料库,包括超过580万的问题,938万的答案,5800个分类标签。基于该问答语料库,可支持多种应用,如闲聊问答,逻辑挖掘。 |
中文任务基准测评 | https://github.com/CLUEbenchmark/CLUE | 中文语言理解测评基准,包括代表性的数据集、基准(预训练)模型、语料库、排行榜 |
中文突发事件语料库 | https://github.com/shijiebei2009/CEC-Corpus | 中文突发事件语料库(Chinese Emergency Corpus)-上海大学-语义智能实验室 |
如果您是经管人文社科专业背景,编程小白,面临海量文本数据采集和处理分析艰巨任务,可以参看 《Python实证指标构建与文本分析》视频课。作为文科生,一样也是从两眼一抹黑开始,这门课程是用五年时间凝缩出来的。自认为讲的很通俗易懂 o( ̄︶ ̄)o,
- Python 语法入门
- Python网络爬虫
- pandas数据操作
- 文本分析(词典法)
- 文本分析 (机器学习)
- 词嵌入与态度认知
感兴趣的童鞋不妨戳一下 《Python实证指标构建与文本分析》 进来看看~
-
公众号:大邓和他的python