Releases: Boris-code/feapder
Releases · Boris-code/feapder
feapder v1.9.0
更新
- BloomFilter去重默认使用同一个key,其它类型去重默认使用redis_key
- BloomFilter 自动分批去重,防止一次性传输大量的数据,导致报错
- MongoDB 批量更新代码。
- RedisDB 支持hvals 命令返回哈希表所有的值。
- 钉钉报警支持指定用户id
- 爬虫代码支持提示
- 支持python3.12
Bug Fixes
- 修复mysql db find 方法bug
feapder v1.8.9
更新
- 支持外置下载中间件
- 钉钉报警支持加签密钥
- 适配selenium>=4.0版本,新增Edge Webdriver
- 优化报警中的爬虫名
Bug Fixes
- 修复 taskspider 不回调start_callback的bug
- 修复重新导入失败item的bug
feapder v1.8.8
更新
- 重写代理池,可自主控制删除代理、可自定义代理池
feapder v1.8.6
更新
- 支持
stop_spider
方法,停止爬虫 - 监控模块
metrics
支持设置retention_policy副本数及是否设置为默认 - 完善normal_user_pool登录失败后回调的逻辑
- TaskSpider 可选择是否使用mysql
- 支持python3.11版本
- 精简安装包
- log 支持success方法
Bug Fixes
- 修复监控打点时间戳的问题
feapder v1.8.5
Bug Fixes
- 修复去重库ExpireFilter与LiteFilter在批量去重时,本批内数据之间未参与去重的bug。如 ["xxx", "bbb", "xxx"] 两个xxx应只保留一个
feapder v1.8.4
更新
- Task spider 支持检查依赖爬虫的状态,依赖的爬虫做完才可结束自己
- 命令行工具支持retry,可重试失败的请求或者item
- 支持重新导入失败的item
- 批次爬虫支持设置不自动启动下一批次
- item 支持update方法
Bug Fixes
- 修复任务爬虫依赖其他爬虫的bug
- 修复 GoldUserPool bug
- 修复有依赖爬虫时,依赖爬虫不结束,新批次开启不了的bug
feapder v1.8.3
Bug Fixes
- 修复下载中间件中自定义返回response时,response.browser属性不存在导致异常的bug
- 修复默认ua的bug,以及浏览器渲染模式下,ua及代理优先级的问题
- 修复selenium浏览器渲染bug
- 适配parsel==1.7.0
feapder v1.8.0
更新
- 支持playwright
- exception_request及failed_request透传异常参数e
- AirSpider 支持去重
- 批次超时报警后,若后续批次完成,则发个批次完成的报警,提醒已恢复正常
- 爬虫并发数默认1
Bug Fixes
- 修复feapder命令在pycharm中上下方向键不起作用的问题
feapder v1.7.9
更新
- 浏览器渲染支持指定selenuim的更多参数
WEBDRIVER = dict(
pool_size=1, # 浏览器的数量
load_images=True, # 是否加载图片
user_agent=None, # 字符串 或 无参函数,返回值为user_agent
proxy=None, # xxx.xxx.xxx.xxx:xxxx 或 无参函数,返回值为代理地址
headless=False, # 是否为无头浏览器
driver_type="CHROME", # CHROME、PHANTOMJS、FIREFOX
timeout=30, # 请求超时时间
window_size=(1024, 800), # 窗口大小
executable_path=None, # 浏览器路径,默认为默认路径
render_time=0, # 渲染时长,即打开网页等待指定时间后再获取源码
custom_argument=[
"--ignore-certificate-errors",
"--disable-blink-features=AutomationControlled",
], # 自定义浏览器渲染参数
xhr_url_regexes=None, # 拦截xhr接口,支持正则,数组类型
auto_install_driver=True, # 自动下载浏览器驱动 支持chrome 和 firefox
use_stealth_js=True, # 使用stealth.min.js隐藏浏览器特征
xxxx=xxx,
xxx2=xxx2
)
Bug Fixes
- 修复浏览器渲染模式下的代理bug
- 修复delete_keys的bug
feapder v1.7.8
更新
- 响应的html支持指定是否拼接绝对连接
- 优化命令行,支持创建TaskSpider
- 下载方法单独抽离出来,方便扩展
- 优化tools.del_html_tag 函数