知乎用户分析项目,该项目主要用于学习如何使用爬虫获取互联网资源,作为自己学习爬虫的入门级项目。项目采用spring+mybatis+webmagic框架,由于在工作中很少写代码,所以代码质量可能较差,也希望看到该项目的朋友海涵,有错误的地方也欢迎大家能够指出来。
2017/2/16
1、完成框架搭建
2、完成用户基础信息的采集内容
2017/3/2
1、添加RedisSchelder
2、添加SpiderListener,记录下载失败的URL
目前遗留问题:
知乎用户主页中,点击“查看详细资料”时触发的ajax请求,暂时没有解决动态获取数据的问题。目前思路是采用"selenium"提供Js运行环境,由其触发按钮点击操作,将页面下载下来后获取详细信息。