Skip to content

Latest commit

 

History

History
23 lines (23 loc) · 812 Bytes

README.md

File metadata and controls

23 lines (23 loc) · 812 Bytes

知乎话题树爬虫


目的

  1. 跟话题为入口解析完整话题树
  2. 获取每个话题关注人数

依赖项


  • pyquery
  • urllib2

设置项


  • 抓取不同的页面所需的Header
  • 抓取间隔时常
  • 获取页面数据超时时常
  • 数据记录文件 地址及名称

说明


  • Python入门 兼 第一个爬虫程序 为了获取爬虫程序健壮性经验 抱着多犯错多修改的态度 无数据库 无守护进程
  • V1.0.0版本已成功抓取完整话题树1次 共包含35963个话题 57396条数据(一个话题含有多个父话题时产生多条数据)

执行环境


  • V1.0.0版本执行环境为Centos7 python2.7
  • V1.0.0版本在Windows下执行父话题名称可能存在乱码问题需重新编码