爬取闲鱼0-10000价格区间内的平板信息以及卖家信息
这个爬虫使用随机选取代理IP和User-Agent代理IP抓取自各个代理IP网站的免费IP。然后验证是否可用,设置超时时间为8秒(可根据需要修改),三分钟获取一次代理IP。
如果想要修改这个爬虫的价格信息,或者爬取其他商品信息,在/Spider/LinkSpider.py里面修改链接和价格信息。
进入“该卖家更多闲置”和“商品详情页面”时,请求头部信息需要有个参数Referer,意思是从哪个页面跳转而来,这个必须有。
获取每个链接之间的时间间隔随机抽取0.5s-1.0s一个时间,平均为0.75s;获取每个页面的时间间隔随机抽取0.5s-1.5s一个时间,平均为1s
平板信息表:GOODSINFO
商品ID: ID TEXT NOT NULL
商品名: GNAME TEXT NOT NULL
描述: DESCRIPTION TEXT NOT NULL
发布时间: PUB_TIME TEXT NOT NULL
价格: PRICE REAL NOT NULL
留言数: COMMENT_NUM INTEGER NOT NULL
卖家: SELLER TEXT NOT NULL
地区: REGION TEXT NOT NULL
卖家等级: VIP INTEGER NOT NULL
商品链接: LINK TEXT
卖家信息表:SELLERINFO
卖家昵称: SELLER TEXT NOT NULL
闲置数量: GOODS_NUM INTEGER NOT NULL
地区: REGION TEXT NOT NULL
所用商品描述:DESCRIPTION TEXT