Skip to content

sz-p/zhihu-topicTree-spider

Repository files navigation

知乎话题树爬虫


目的

  1. 跟话题为入口解析完整话题树
  2. 获取每个话题关注人数

依赖项


  • pyquery
  • urllib2

设置项


  • 抓取不同的页面所需的Header
  • 抓取间隔时常
  • 获取页面数据超时时常
  • 数据记录文件 地址及名称

说明


  • Python入门 兼 第一个爬虫程序 为了获取爬虫程序健壮性经验 抱着多犯错多修改的态度 无数据库 无守护进程
  • V1.0.0版本已成功抓取完整话题树1次 共包含35963个话题 57396条数据(一个话题含有多个父话题时产生多条数据)

执行环境


  • V1.0.0版本执行环境为Centos7 python2.7
  • V1.0.0版本在Windows下执行父话题名称可能存在乱码问题需重新编码

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages