Skip to content

用scrapy框架爬取拉勾上面的招聘信息

Notifications You must be signed in to change notification settings

oo10/lagou_spider

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Lagou_job

使用scrapy、mysql,实现对拉勾网招聘信息的爬虫,使用Proxies定时更新代理池并检测代理的可用性。 这个项目是为我之后对拉勾网的招聘信息进行分析的前置项目,获取数据保存到mysql。

  • 更新代理池。通过Proxies获取并保存到根目录下proxies.txt文件
  • 数据存储在mysql数据库中,主要字段包括:
    • keyword 职业类型
    • salary 工资
    • companySize 公司规模
    • city 所在城市
    • positionName 职位名称
    • workYear 工作年限
    • education 教育水平
    • jobNature 工作性质
    • .........
  • 避免爬虫被ban的策略
    • 调整设置里面的DOWNLOAD_DELAY
    • 设置更换代理的中间件ProxyMiddleWare
    • 设置Header
      • 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'
  • 信息存储
    • 通过pipeline里的LagouJobInfoDbPipeline插入到数据库

需要用到的第三方库

  • requests
  • BeautifulSoup
  • MySQLdb

About

用scrapy框架爬取拉勾上面的招聘信息

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%