GitHub - sz-p/zhihu-topicTree-spider

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
.vscode		.vscode
README.md		README.md
__init__.py		__init__.py
config.py		config.py
getsubtopic.py		getsubtopic.py
problem.md		problem.md
topictreespider.py		topictreespider.py
versions.md		versions.md
writedown.py		writedown.py

Repository files navigation

知乎话题树爬虫

目的

以跟话题为入口解析完整话题树
获取每个话题关注人数

依赖项

pyquery
urllib2

设置项

抓取不同的页面所需的Header
抓取间隔时常
获取页面数据超时时常
数据记录文件地址及名称

说明

Python入门兼第一个爬虫程序为了获取爬虫程序健壮性经验抱着多犯错多修改的态度无数据库无守护进程
V1.0.0版本已成功抓取完整话题树1次共包含35963个话题 57396条数据（一个话题含有多个父话题时产生多条数据）

执行环境

V1.0.0版本执行环境为Centos7 python2.7
V1.0.0版本在Windows下执行父话题名称可能存在乱码问题需重新编码

About

No description, website, or topics provided.

Report repository

Releases

No releases published

Packages

No packages published

Languages

Python 100.0%