欢迎对数据可视化、数据挖掘感兴趣的同学一起完成这个项目。 welcome to fork
关于该项目的设计思路、一些代码的解释以及学习如何利用NLP技术做简单数据可视化分析,可以微信扫描下面二维码,直达详细教程:
以中国新闻网社会新闻板块为抓取对象,通过关键词来分析新闻热点事件: 中国新闻网链接
当前代码中设置的是抓取2017年11月份所有数据新闻数据,后期进行数据可视化分析,用户也可以自己在homework1.py设置要抓取的时间段
建立一整套从新闻信息挖掘到分析以及可视化展现的完整体系, 使用户能够很好的关注整个当前的新闻热点以及这些热点的起始、 经过、 发展和消逝的整个过程。
微信官方曾经关于新闻热点可视化的一篇推送,可做参考:
微信小秘密: 2016 年那些 10w+ 文章是怎么刷爆朋友圈的?
pyLDA系列 考量时间因素的动态主题模型(Dynamic Topic Models)
LDA(Latent Dirichlet Allocation)主题模型
系统:windows
python版本:python 3.6.3
数据库:mongoDB 3.4.9
分词系统:中科院ictclas分词系统 地址:https://github.com/sty945/NLPIR
分词系统文件转json地址: http://tools.jb51.net/code/excel_col2json
news_spider
│ readme.txt
│
├─bin 程序文件
│ │ countDatabase.py 在数据抓取过程中统计数据库中数据数量
│ │ deal_network_failed.py 解决抓取过程中,网络掉线或者其他中断情况的断点续传功能
│ │ writefile.py 将数据库中所有的新闻数据写入到txt文本中
│ │ news_spider.py 爬虫主程序
│
├─contents 文本资源
│ │ 03_content.txt 2017年11月份的结果数据文本
│
└─result 结果存放
11month_view .html 数据可视化展示,基于jupyter notebook 书写保存后的html,建议firefox打开,chrome图表显示有问题
11result.json 处理后的用json保存的数据提取出来关键词结果
raw_result.json 处理前的用json保存的数据提取出来关键词结果
news_spider_vision.ipynb jupyter note格式的结果展示
Locators_table_cheat_sheet.pdf css selector资源
stop_words* 停用词典