Skip to content

Releases: xtuhcy/gecco

1.3.0Release

15 Sep 14:56
Compare
Choose a tag to compare

1.新增bigDecimalTypeHandle
2.使用自定义的正则表达式规则。类似Jersey的@path语法。如:http://test.com/{code:[0-9]+}.html
3.升级jdk到1.8
4.新增bigDecimalTypeHandle

1.2.10Release

24 Aug 12:59
Compare
Choose a tag to compare

1.支持jsonbean嵌套htmlbean
2.修改HttpPostRequest的field为String类型
3.@RequestParameter注解增加对HttpPost的field的支持

1.2.5Release

03 Nov 02:47
Compare
Choose a tag to compare

1、@Gecco注解支持多个matchUrl,一个spiderbean可以同时匹配多种形式的url
2、jd地址全部升级为https,jd demo改成https
3、升级cglib,fastjson,jsoup等到最新版本
4、整理javadoc,去除错误和警告

1.2.4Release

12 Sep 03:14
Compare
Choose a tag to compare

1、修复GeccoEngine生命周期EventListener,onStart无效的bug
2、修改图片自动下载方式,对@image提供单独的渲染器ImageFieldRender
3、修复大规模爬取时有时httpclient阻塞的bug
4、优化异常处理,RenderException将不会中断渲染和pipeline处理,而是记录日志
5、升级guava到最新的19.0版本

1.2.3Release

19 Aug 01:48
Compare
Choose a tag to compare

1.增加proxysLoader,支持自定义代理ip加载,FileProxys代替Proxys
2.增加派生队列和初始队列上下文,DeriveSchedulerContext代替SchedulerContext,增加StartSchedulerContext提供初始化队列运行时入队机制
3.添加引擎生命周期监听器(米林pull request)
4.删除警告信息,带有注解完善(米林pull request)
5.增加停止爬虫engineStop()和是否开启代理proxy()API
6.添加自定义注解和渲染支持(米林pull request)

1.2.2Release

18 Jul 02:19
Compare
Choose a tag to compare

1.修复UniqueSpiderScheduler的排序错误
2.DynamicGecco稳定版,支持动态改变抓取规则
3.JsonPipeline,提供运行时生产SpiderBean时使用
4.支持tomcat等非双亲委派模型的ClassLoader

1.2.0Release

05 Jul 03:39
Compare
Choose a tag to compare

1、HttpClientDownloader保证inputstream能重复使用,@shangjian提供修改思路
2、支持一个Before/AfterDownloader对应多个SpiderBean
3、Gecco的动态编程是新版本的核心功能,Gecco支持动态生成SpiderBean包括类,属性,注解。可以不需要预先定义SpiderBean即可完成抓取。详细情况可以参考http://my.oschina.net/u/2336761/blog/706041

1.1.3Release

31 May 01:52
Compare
Choose a tag to compare

1.处理jsonp的时候分号的问题修复
2.支持自定义下载重试次数定义,GeccoEngine.retry(count)
3.HttpClientDownloader支持response的Set Cookie自动存储
4.修改以支持JSON的JsonBean递归解析 by shangjian

1.1.2Release

16 May 01:34
Compare
Choose a tag to compare

1.更新fastjson,jsoup,cglib最新版本
2.jsonp判断方式修改
3.@html支持outer
4.修改jd的demo
5.相同matchUrl 给出警告
6.修改UniqueSpiderScheduler判断唯一性的bug(尽快更新)

1.1.1Release

09 May 01:55
Compare
Choose a tag to compare

1.@Gecco不填写matchUrl时,支持匹配所有格式url的通用抓取
2.默认使用UniqueSpiderScheduler队列管理避免重复HttpRequest的抓取
3.修改table tr列表不能解析的问题
4.增加@Ajax请求支持Html格式内容解析