Skip to content

Releases: zhegexiaohuozi/SeimiCrawler

v1.3.0

08 Dec 15:31
Compare
Choose a tag to compare
  • 支持在Request对象中,通过header(map)来自定义本次请求的header,以及支持通过seimiCookies来自定义cookies,自定义cookies会直接进入cookiesStore,对同域下第二次请求依然有效
  • 优化默认启动方式,改造cn.wanghaomiao.seimi.boot.Run支持CommandLineParser,可以使用 -c-p来传参,其中-c用来指定crawlernames,多个用','分隔,-p指定一个端口,可以选择性的启动一个内嵌的http服务,并开启使用内嵌http接口
  • maven-seimicrawler-plugin打包插件升级为1.3.0,完善Linux下的脚本,并增加启动配置文件,可以到maven-seimicrawler-plugin主页详细查看
  • 默认下载器改为Apache Httpclient,备用为下载器OkHttp3实现
  • 优化部分代码
  • demo日志默认全部输出至控制台

v1.2.0

21 Jul 16:34
Compare
Choose a tag to compare
  • OkhttpDownloader支持处理contentType头中没有指定编码的中文页面
  • 支持通过@Crawler注解中的httpTimeOut属性自定义http请求的超时时间,默认15000ms

附件中的demo通过maven-seimicrawler-plugin打包生成。如果不熟悉maven可以直接使用里面的lib目录设置依赖,同时也可以直接运行示例查看效果。运行方法可以阅读maven-seimicrawler-plugin进行了解。

v1.1.0

06 Jul 16:19
Compare
Choose a tag to compare
  • 可通过实现SeimiCrawlerList<Request> startRequests();来实现更复杂的起始触发请求
  • SemiQueue按需加载
  • 修复抓取文件类型数据返回时尝试匹配meta refresh时产生的问题

v1.0.0

29 Jun 15:20
Compare
Choose a tag to compare
  • http请求处理器重构,并默认改由okhttp3实现,且支持通过@Crawler注解中的httpType自由切换为apache httpclient
  • 部分代码优化
  • 支持通过seimiAgent获取页面快照(png/pdf)
  • 升级JsoupXpath版本至v0.3.1

这一版是SeimiCrawler比较重大的一次更新,伴之而来的亦是更强悍的抓取体验。