Skip to content

PaddleNLP v2.4.3

Compare
Choose a tag to compare
@LemonNoel LemonNoel released this 18 Nov 02:23
· 2697 commits to develop since this release
e002b0d

New Features

Prompt API

  • Template String 新增支持关键字 prefixoptions,新增 position, token_type, length, encoder, hidden_size 等7个属性 #3724
  • 新增支持 PrefixTemplate
  • 解除 InputExampleInputFeatures 对输入数据关键字的限制

问答

  • 新增无监督问答pipelines,pipeline运行示例和说明文档 #3605
  • 新增节点QAFilter、AnswerExtractor、QuestionGenerator、AnswerExtractorPreprocessor、QAFilterPostprocessor
  • 新增pipeline QAGenerationPipeline
  • FastAPI后端代码,承接ElasticSearch ANN检索库、QAGenerationPipeline和SemanticSearchPipeline
  • 无监督问答WEB可视化系统,功能如下:问答检索、在线问答对生成、在线更新索引库、文件上传并自动生成和载入问答对、问答对生成可选择过滤、问答检索可选择返回答案数量和最大检索数量

Trainer

  • 新增sharding支持,目前支持sharding stage1、stage2。 #3352
  • 新增bf16训练支持,可支持单卡、多卡训练。完善了pure_fp16训练支持。
  • 新增IterableDataset支持,支持传入Iterable的数据集。
  • 新增Seq2SeqTrainer,支持seq2seq任务训练。

FasterGeneration

  • 解除 Transformer FFN 中间隐层维度是 d_model 4 倍的限制,新增导入 model_state 方式加载模型 #3592

FastTokenizer

  • AutoTokenizer新增use_fast参数,指定使用fast_tokenizer完成高性能分词。目前ERNIE, BERT, TinyBert以及ERNIE-M可开启该选项。#3746
  • 发布高性能分词工具FastTokenizer 1.0.0 正式版,包含C++预编译包以及Python包 #3762

基础底座

  • UNIMO 新增支持获取中间输出选项和支持输入 label 并自动计算 loss #3450
  • CodeGen 新增支持获取中间输出选项和支持输入 label 并自动计算 loss #3465
  • UnifiedTransformer 新增支持获取中间输出选项和支持输入 label 并自动计算 loss #3459
  • BART 新增支持获取中间输出选项和支持输入 label 并自动计算 loss #3436
  • MBART 新增支持获取中间输出选项和支持输入 label 并自动计算 loss #3436
  • T5 支持直接输入 encoder & decoder embedding 结果 #3668
  • 新增paddlenlp cli工具 #3538
  • 添加 7 个 P1 级别模型的单测 #3462

UIE

  • 新增 UIE 量化训练和部署 #3496

Neural Search

  • 新增Gradicent Cache和Recompute支持单卡超大batch size的训练。 #3697

Text Classification

  • 新增语义索引的多标签文本分类。#3656
  • 新增单词和句子级别的可解释性分析 #3385
  • 修复文本分类部署相关问题 #3765
  • 基于 Trainer API 更新多分类实现 #3679

PPDiffusers

  • 将diffusers_paddle重命名为ppdiffusers。#3601
  • 修复bug支持中文Stable Diffusion, 发布ppdiffusers0.6.1。 #3663
  • 发布ppdiffusers0.6.2 #3737
  • 增加laion400m文生图训练脚本。#3693 #3772
  • 支持 EulerAncestralDiscreteScheduler 和 DPMSolverMultistepScheduler #3708 #3764
  • 增加fid计算代码。#3685
  • 增加ldm超分的pipeline。 #3710
  • 增加ppdiffusers推理pipeline使用代码。 #3759
  • 添加 ppdiffusers CD workflow #3604

Bug Fix

  • 修复 FasterEncoder 预测结果异常问题 #3606
  • 修复 FasterGeneration PrefixLM 类模型在 beam search 解码策略下显存分配问题 #3662
  • 修复Windows平台下载社区模型失败的问题 #3670 #3640
  • Pipelines修复文件重复上传的问题。#3568
  • Pipelines修复word文档解析异常的问题。#3645
  • PIpelines修复批量预测异常的问题。#3712
  • 修复问题生成模版相关的bug .#3646
  • TIPC中gpt动转静。#3586
  • 添加CLIPText,CLIPVision进入auto/modeling,支持AutoModel加载,修改CLIP的默认NEG INF为-1e4,这样fp16 O2不会异常。 #3789
  • 修复 pypi 自动化发包流程配置 #3626