⚡️FastDeploy 是一款全场景、易用灵活、极致高效的 AI 推理部署工具,满足开发者多硬件、多平台的产业部署需求。开发者可以基于 FastDeploy 将训练好的预测模型在不同的硬件、不同的推理引擎后端上进行部署。目前 FastDeploy 提供多种编程语言的 SDK,包括 C++、Python 以及 Java SDK。
在部署 ERNIE 3.0 模型前,需要安装 FastDeploy SDK,可参考 FastDeploy SDK安装文档确认部署环境是否满足 FastDeploy 环境要求,并按照介绍安装相应的 SDK。
目前,ERNIE 3.0 模型支持在如下的硬件以及推理引擎进行部署。
符号说明: (1) ✅: 已经支持; (2) ❔: 正在进行中; (3) N/A: 暂不支持;
硬件 | 可用的推理引擎 | 是否支持 Paddle 新格式量化模型 | 是否支持 FP16 模式 |
CPU | Paddle Inference | ✅ | N/A |
ONNX Runtime | ✅ | N/A | |
OpenVINO | ✅ | N/A | |
GPU | Paddle Inference | ✅ | N/A |
ONNX Runtime | ✅ | ❔ | |
Paddle TensorRT | ✅ | ✅ | |
TensorRT | ✅ | ✅ | |
昆仑芯 XPU | Paddle Lite | N/A | ✅ |
华为 昇腾 | Paddle Lite | ❔ | ✅ |
Graphcore IPU | Paddle Inference | ❔ | N/A |
符号说明: (1) ✅: 已经支持; (2) ❔: 正在进行中; (3) N/A: 暂不支持;
任务 Task | 部署方式 | 是否支持 |
文本分类 | Python | ✅ |
C++ | ✅ | |
Serving | ✅ | |
序列标注 | Python | ✅ |
C++ | ✅ | |
Serving | ✅ |
ERNIE 3.0 模型支持 Python、C++ 部署以及 Serving 服务化部署。以下是详细文档。