Releases: zhegexiaohuozi/SeimiCrawler
Releases · zhegexiaohuozi/SeimiCrawler
v1.3.0
- 支持在
Request
对象中,通过header
(map)来自定义本次请求的header,以及支持通过seimiCookies
来自定义cookies,自定义cookies会直接进入cookiesStore,对同域下第二次请求依然有效 - 优化默认启动方式,改造
cn.wanghaomiao.seimi.boot.Run
支持CommandLineParser
,可以使用-c
和-p
来传参,其中-c
用来指定crawlernames,多个用','分隔,-p
指定一个端口,可以选择性的启动一个内嵌的http服务,并开启使用内嵌http接口 maven-seimicrawler-plugin
打包插件升级为1.3.0,完善Linux下的脚本,并增加启动配置文件,可以到maven-seimicrawler-plugin主页详细查看- 默认下载器改为Apache Httpclient,备用为下载器OkHttp3实现
- 优化部分代码
- demo日志默认全部输出至控制台
v1.2.0
OkhttpDownloader
支持处理contentType
头中没有指定编码的中文页面- 支持通过
@Crawler
注解中的httpTimeOut
属性自定义http请求的超时时间,默认15000ms
附件中的demo通过maven-seimicrawler-plugin打包生成。如果不熟悉maven可以直接使用里面的lib目录设置依赖,同时也可以直接运行示例查看效果。运行方法可以阅读maven-seimicrawler-plugin进行了解。
v1.1.0
- 可通过实现
SeimiCrawler
的List<Request> startRequests();
来实现更复杂的起始触发请求 - SemiQueue按需加载
- 修复抓取文件类型数据返回时尝试匹配
meta refresh
时产生的问题
v1.0.0
- http请求处理器重构,并默认改由
okhttp3
实现,且支持通过@Crawler
注解中的httpType
自由切换为apache httpclient - 部分代码优化
- 支持通过seimiAgent获取页面快照(png/pdf)
- 升级JsoupXpath版本至
v0.3.1
这一版是SeimiCrawler比较重大的一次更新,伴之而来的亦是更强悍的抓取体验。