DeBERTa
本项目基于PaddlePaddle复现的Deberta,完成情况如下:
- 我们复现的Deberta是基于paddlenlp
- 我们提供aistudio notebook, 帮助您快速验证模型
项目参考:
模型 | opt | 数据集 | Acc | Acc(原论文) |
---|---|---|---|---|
deberta-large | AdamW | MNLI | 33.3 | 91.3/91.1 |
复现代码训练日志: 复现代码训练日志
我们主要复现MNLI-m/mm数据集的精度, 数据集,
MNLI数据集可以前往此处下载: 地址
运行以下命令即可配置环境(由于nltk在源码中复制,所以可以不安装)
pip install paddlepaddle-gpu
pip install sentencepiece
- 将转换后的模型放到lib/deberta_large/下面
转换之后的模型链接为https://aistudio.baidu.com/aistudio/datasetdetail/129155
- 调整MNLI数据集目录:MNLI数据集较大,下载数据集到指定目录data/MNLI/
- 微调和验证: 以下是训练以及验证MNLI的train_eval.py
python tools/train_eval.py
- tokenizer代码 tokenization_deberta:paddle_deberta/paddlenlp/tokenization_deberta.py
- 数据集加载: tools/my_datasets.py
- tools目录中包含微调任务的训练与测试脚本,train_eval.py执行训练验证脚本