Skip to content

一个比价系统爬虫方案。基本思路: 1:利用selenium驱动chrome浏览器进入淘宝网站,输入关键词“美食”,并点击搜索按钮,得到商品查询后的列表; 2:加载搜索结果页面完成后,分析页码,得到商品的页码数,模拟翻页,得到后续页面的商品列表; 3:利用pyquery解析页面,分析获取商品信息; 4:将获取到的商品信息存储到mongodb中,供后续分析使用。

Notifications You must be signed in to change notification settings

kkman2008/webcrawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 

Repository files navigation

一个完整的爬虫实例

基本思路:

1:利用selenium驱动chrome浏览器进入淘宝网站,输入关键词“美食”,并点击搜索按钮,得到商品查询后的列表;

2:加载搜索结果页面完成后,分析页码,得到商品的页码数,模拟翻页,得到后续页面的商品列表;

3:利用pyquery解析页面,分析获取商品信息;

4:将获取到的商品信息存储到mongodb中,供后续分析使用。

更具体参考:

请参看本人博客对此实例的具体分析: https://blog.csdn.net/kingmax54212008/article/details/82054308

About

一个比价系统爬虫方案。基本思路: 1:利用selenium驱动chrome浏览器进入淘宝网站,输入关键词“美食”,并点击搜索按钮,得到商品查询后的列表; 2:加载搜索结果页面完成后,分析页码,得到商品的页码数,模拟翻页,得到后续页面的商品列表; 3:利用pyquery解析页面,分析获取商品信息; 4:将获取到的商品信息存储到mongodb中,供后续分析使用。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages