该项目用于实现并发版爬虫,对于网站进行有些数据的提取、存储、查找、以及页面展示。
爬取的网站:http://www.zhenai.com/zhenghun
先实现单任务版本、随后实现并发版本、最终实现分布式版本。
单任务版本
以下表述的是实现的过程:
- 获取并打印第一页网页的信息。
需要安装用于网页字符转换的库,具体操作参考下面的知识点部分:
get -g -v golang.org/x/text
get -g -v golang.org/x/net
-
通过正则表达式获取到第一页网页信息中,所包含的城市名字和URL。
对于网页中信息提取的方法包括:- 使用css选择器。
- 使用xpath。
- 使用正则表达式。
-
构思爬虫的算法
根据爬取页面的手动点击和总结,可以将对于每个业务获取数据的动作称为解析器(Parser)。
对于不同的网站需要不同的解析器,而当前需要爬取的网站其中包含三种解析器分别为:- 城市列表解析器。
- 城市解析器。
- 用户解析器。
对于解析器的主要承担的工作有,输入输出。
其中输入为:utf-8编码的文本。输出为:Request{需要操作的URL, 对应Parser方法}列表和获取的有用信息item,对于不同的URL需要不同的解析器进行处理。 -
构思爬虫整体架构 对于整个程序,重要的是需要一个驱动程序(engine),负责将整个程序进行运转。驱动程序起初需要一个种子(seed)即爬取网闸的请求(request),将其添加到任务队列。 随后驱动程序依次将任务队列中的request请求,发送给收集器(fetcher), fercher收集器负责从Internet获取到相应请求url的网页信息(text),将utf-8的网页信息返回给engine。其次engine负责将text提交给解析器进行解析,解析器将解析的结果(ParseResult)返回给engine。最后engine将返回的结果进行拆分,其中需要再次请求Requests的信息放入到任务队列,结果数据(item)进行打印或存储。其整体流程图如下所示:
-
对城市列表解析进行测试
测试方法:采用表格驱动的方法 -
对于城市列表中的每个城市URL进行解析,获取到用户名和用户URL
-
用户信息进行解析
-
分析单任务版本爬虫存在的性能问题
对于单任务版本,其对于互谅网上获取网页数据耗时比较到,而此时整个程序需要再次等待,当完全获取到数据后才能继续执行,所以可以将此处进行并发处理,异步化。
并发版本
以下表述的是实现的过程:
-
将fetcher和parser合并成一个work动作
针对上述存在的性能问题,可以将从网页获取数据代码异步化。而对于解析器(parser),是从本地获取数据,不存在性能问题,但是没获取到一个网页内容都要进行解析,因此可以将获取网页内容(fetcher)和parser合并成一个work动作函数,进行真正网页与数据的处理。可将上述流程图,修改成如下图所示:
-
构建一个调度程序(Scheduler) Schedule用于分发request到多个worker中,从而实现多对多的关系。其架构图如下所示:
注: 其中每个线表示一个chanal;每个方框表示一个goroute;Request表示多个请求 -
实现Scheduler为每个Request创建一个goroutine
主要功能是为每个Request创建一个goroutine,每个goroutine只做一件事情,往worker同一队列分发request。其缺点是控制力比较小,无法控制goroutine,以及无法控制request给那个worker,对于负载均衡无法实现。实现过程如下图所示:
注:goroutine是与Request数量对等,与worker的数量不对等。 -
Schedule自己实现request的分发
在Schedule中实现Request队列和Worker队列,Request队列用于存储从Schedule过来的Request,Worker队列用于存储worker,Schedule从Request队列获取相应的Request,交给从Worker队列获取的相应worker,从而实现对request和worker的控制,达到分发的目的。其实现过程如下图所示:
-
采用ElasticSearch快速存储、搜素、分析数据
为每个Item创建goroutine,提交给ItemSave,采用Docker进行ElasticSearch的安装,实现对爬取数据的快速存储、搜素、数据分析等功能。
注意:对于itemsave.go中的elastic的存储客户端要根据自己的实际情况进行修改:
elastic.NewClient(elastic.SetURL("http://192.168.79.133:9200/")
- 向item中添加url和id
添加url的目的是为了可用性,添加id的目的是为了向elasticsearch存储时去重。
下载golang.org中的包
gopm 代替go 下载第三方依赖包
在国内采用go get有时会下载不到一些网站如golang.org的依赖包。
可以采用gopm从golang.org一些镜像网站上下载。
- 安装gopm
go get -u -v github.com/gpmgo/gopm
执行该命令的用户需要设置GOPATH参数
- gopm get 如果不携带-g采用,会把依赖包下载.vendor目录下面。
采用-g 参数,可以把依赖包下载到GOPATH目录中
gopm get -g golang.org/x/net
或参考:go get golang.org/x 包失败解决方法
正则表达式的基本使用
主要包括正则表达式的匹配,以及将匹配串中需要的子串提取出来。
elastic包的使用
对于elasticsearch的存储的存储有两种方式,第一种方式为:http启用rest,另一种为采用elasticsearch客户端,本项目采用第二种方式,支持go的第三方库点击此处