微博爬虫(可基于搜索关键词,爬取博文),对博文数据清洗,并利用百度aip情感分析(三分类)
参照了以下工作成果:
具体使用说明,可在weibo-search文件夹README查看。使用时,请注意替换cookie
jieba关键词分析,TF-IDF、TextRank
因需求粒度不大,借助百度aip情感分析,进行三分类。个人开发者测试,可免费调用,限制单日单功能调用次数50万次,限制每秒请求2次。
在远端创建应用之后,可获取AppID、API Key、Secret Key,对应填入即可使用
将爬取的数据文件,放入根目录,对应修改run.py文件路径
- 可对数据标注aspect,构建模型训练分析