Skip to content

suqin-haha/Lianjia

Repository files navigation

Lianjia

主要文件为 spiders文件夹下的 chengjiao_aria.py //其他均未通过测试

环境准备

  1. python: 下载anaconda并安装
  2. pycharm:下载pycharm 安装就好

可能需要的环境文件 scrapy 和依赖安装: 打开anaconda powershell 输入

conda install -c conda-forge scrapy
conda install -c conda-forge requests
conda install -c conda-forge lxml
conda install -c conda-forge beautifulsoup4

Random user agent 组件 https://github.com/alecxe/scrapy-fake-useragent

使用

1.首先注意改chengjiao_aria.py 的第31行,其中的 i 代表城市列表中的第几行 0060133c224286bdb0d9a928cf47bd10.png

建议先使用 i = 2,也就是先采北京,如果北京没问题那其他也应该没问题

  1. 修改middlewares 文件中的 api (我这里使用的是代理云api)

cf24aa7b01cb2fc4d96ae3afebe0b1cd.png

  1. 在terminal 中使用以下代码运行 scrapy crawl chengjiao_aria.py 更多教程在官方文档 https://docs.scrapy.org/en/latest/intro/tutorial.html

其他文件介绍

  1. log: log文件用来记录过程来debug的,运行过程中一些流程也会在terminal中打印出来。 logging.warning('delete wrong')
  2. check:check 文件用来获取能爬取到的最早的日期,用来检测是否有爬不到的日期
  3. stat: stat 文件用来计算能爬到的数量

此项目涉及的点(方便以后参考)

custompolicy.py: http_cache policy 加入‘refresh-cache’ 在 mata 里
logger.py: loggerformater 不让scrapy老打印或者log 成功的item
用切割价格和面积 以获得更多链家信息
自定义 middleware 使用 代理云 ip
使用 fake user agent

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages