- 以跟话题为入口解析完整话题树
- 获取每个话题关注人数
- pyquery
- urllib2
- 抓取不同的页面所需的Header
- 抓取间隔时常
- 获取页面数据超时时常
- 数据记录文件 地址及名称
- Python入门 兼 第一个爬虫程序 为了获取爬虫程序健壮性经验 抱着多犯错多修改的态度 无数据库 无守护进程
- V1.0.0版本已成功抓取完整话题树1次 共包含35963个话题 57396条数据(一个话题含有多个父话题时产生多条数据)
- V1.0.0版本执行环境为Centos7 python2.7
- V1.0.0版本在Windows下执行父话题名称可能存在乱码问题需重新编码