Skip to content

v0.5.0

Compare
Choose a tag to compare
@Tlntin Tlntin released this 07 Dec 13:31
· 5 commits to release/0.5.0 since this release

更新记录

  • 支持Qwen-xxx-Chat-Int4模型直接编译成TensorRT Engine。
  • 新增chatglm3-6b-32k模型支持,chatglm3-6b-32k与chatglm3-6b相比不同之处在于位置编码的rope_ratio不同,文档链接
  • 新增chatglm2-6b模型支持,相比社区版本增加了tp支持,适用于chatglm2-6b和chatglm3-6b,文档链接
  • 待优化:glm2/3使用的是GQA,但是现在的计算方式退化成了MHA,猜测原因是glm2实现的时候gpt attention plugin还不支持gqa,可以说是遗留问题,可以参考llama 80B的实现,直接使用GQA,加速计算。
  • 新增int4-awq支持,用于Qwen-xx-chat。
  • api.py新增function call功能,同时新增天气查询demo,代码在qwen/client/openai_function_call.py。(注意:天气api需要自己去和风天气申请,网站:https://dev.qweather.com/
  • 新增int4-gptq支持,感谢@Sanster的贡献。
  • 更新TensorRT-LLM底层,从2023年7月份比赛专用版更新到10月份发布的release/0.5.0版。
  • 增加TensorRT-LLM接入LangChain指南,文档链接
  • 增加Triton部署TensorRT-LLM教程,并且可选inflight_batching功能,文档链接
  • 支持int8-kv-cache和--remove_input_padding和--enable_context_fmha来节省显存。
  • 新增英文Readme文件,放在qwen/Readme.md里面