Spider爬虫实例

1. dianping——大众点评

大众点评获取所有排行榜店铺信息建表入库
selenium登录获取cookie，使用cookie模拟登录
从库中获取所有店铺的id，拼接URL获取每个店铺所有评论信息并建表入库
添加断点续爬功能，程序中断后自动从断点开始爬取。

2. zhihuCrawl——知乎web

知乎模拟登录
验证码图片保存，输入识别的验证码
获取当日热门话题及其高赞回答
保存问题标题、链接，回答者的ID，内容及点赞数量，存储至MongoDB

3. 微信公众号爬虫

使用西刺代理构建代理ip池，检查代理ip连通性
使用可用的ip爬取搜狗微信公众号文章
将文章保存为.doc文档

4. 豆瓣读书爬虫

读取豆瓣每个分类的书籍列表
获取每本书信息,存储到MySQL，爬取完毕后删除重复数据并重新排序

5. csdn_scrapy——csdn网站

爬取csdn所有子标签文章，清洗后保存到MongoDB
使用scrapy.redis组件进行分布式部署

6. bilibili——b站

使用scrapy-splash爬取b站子标签热门video排行的大量信息
按标签建表保存至MongoDB

7. toutiao——今日头条web

爬取今日头条子标签新闻
webdriver获取加密参数
ajax请求返回json数据解析，保存至MongoDB

8. taobao——淘宝web

爬取淘宝各子标签，按销量排名商品信息，按分类保存至MongoDB
通过pandas进行数据分析
将商品在各省分布、销量排行、地图分布等通过matplotlib绘图显示

9. zhihu_app——知乎app

爬取使用ssl-pinning技术的app
fiddler抓包获取api请求
模拟手机端请求数据，解析json存入mysql

10. Ajax_weibo——微博app

输入要爬取的博主ID，获取ajax请求
解析json数据，爬取博主所有微博，保存至MySQL

11. scrapyd

docker scrapyd 配置文件

Name	Name	Last commit message	Last commit date
Latest commit MaLei666 note Jun 20, 2019 db0b4a3 · Jun 20, 2019 History 181 Commits
Ajax_weibo	Ajax_weibo	6.20更新 ajax技术爬取微博博主所有微博，保存至MySQL	Aug 26, 2018
appium_test	appium_test	10.26更新 appium模拟操作真机	Oct 26, 2018
baidu_captcha	baidu_captcha	note	Jun 20, 2019
bilibili	bilibili	12.03更新	Dec 3, 2018
csdn_scrapy	csdn_scrapy	02-22更新 scrapy框架	Feb 22, 2019
dianping	dianping	02-11更新	Feb 11, 2019
scrapyd	scrapyd	docker scrapyd 配置文件	Aug 26, 2018
taobao	taobao	12.03更新	Dec 3, 2018
toutiao	toutiao	8.26更新爬取今日头条子标签新闻，ajax请求返回json数据解析	Oct 17, 2018
zhihuCrawl	zhihuCrawl	11-29更新	Nov 29, 2018
zhihu_app	zhihu_app	10.30更新爬取使用ssl-pinning技术的app，获取api请求，解析json存入mysql	Oct 30, 2018
微信公众号爬虫	微信公众号爬虫	5.29更新使用代理ip爬取搜狗微信公众号文章，将文章保存到doc文档中	Aug 26, 2018
笔记	笔记	note	Jun 20, 2019
豆瓣读书爬虫	豆瓣读书爬虫	5.29更新爬取豆瓣读书标签包含书籍信息,存储到MySQL	Aug 26, 2018
README.md	README.md	readme.md	Dec 18, 2018
matplotlib测试.py	matplotlib测试.py	8.1更新	Aug 1, 2018
numpy_test.py	numpy_test.py	10.23 更新	Oct 23, 2018

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Spider爬虫实例

1. dianping——大众点评

2. zhihuCrawl——知乎web

3. 微信公众号爬虫

4. 豆瓣读书爬虫

5. csdn_scrapy——csdn网站

6. bilibili——b站

7. toutiao——今日头条web

8. taobao——淘宝web

9. zhihu_app——知乎app

10. Ajax_weibo——微博app

11. scrapyd

About

Releases

Packages

Languages

MaLei666/Spider

Folders and files

Latest commit

History

Repository files navigation

Spider爬虫实例

1. dianping——大众点评

2. zhihuCrawl——知乎web

3. 微信公众号爬虫

4. 豆瓣读书爬虫

5. csdn_scrapy——csdn网站

6. bilibili——b站

7. toutiao——今日头条web

8. taobao——淘宝web

9. zhihu_app——知乎app

10. Ajax_weibo——微博app

11. scrapyd

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages