淘宝官网 - https://www.taobao.com/
Author | 😎Henryhaohao😎 |
---|---|
参考知乎上这篇文章:https://www.zhihu.com/question/35538123;发现淘宝的UA验证原理大概是这样的,从页面加载完成后,就开始搜集用户在页面上的操作,包括鼠标的点击,移动轨迹,按下,松开,滑动块的拖动,同时还包括时间等信息,然后根据某种算法,生成一个字符串,拼接起来。最后在登录或者 验证用户名的请求中,作为名字叫ua的参数传递到服务器。当然,它收集的次数是有限的,达到一定限制后,会停止。难点在于,这个过程非常的复杂,相关的js被混淆,但凡有价值的数值(2000多个),全放在几个数组中,通过数组[下标]的形式访问,完全搞不懂什么逻辑什么意思,调试起来异常艰难。(:◎)≡
该项目为淘宝网商品信息的定向爬虫
- 项目介绍:通过淘宝搜索关键字爬取指定的商品信息
- 爬取方式:通过Python的Selenium自动化测试库以及配合Phantomjs无头浏览器
- 爬虫文件:运行Spiders目录下的spider.py
- 配置文件:运行前修改Spiders目录下的config.py,其中的KEYWORD为你要搜索商品名称的关键字,以及mongodb相关配置
- 补充:如果想要增加爬取的字段,可以自行在item中添加,目前包括商品名、城市、详情链接、封面、售价、销量、店铺名
Version: Python3
pip3 install -r requirements.txt
最后,如果你觉得这个项目不错或者对你有帮助,给个Star呗,也算是对我学习路上的一种鼓励!
哈哈哈,感谢大家!笔芯~💘💘