使用方法

用户可以基于已发布的预训练模型CINO在TNCC数据集上进行finetuning实验。

测试环境

numpy : 1.21.2
python : 3.7.10
pytorch : 1.7.1
scikit-learn : 0.24.2
transformers : 3.1.0

示例步骤

本例中，我们使用 CINO-large 模型在TNCC上进行精调，相关步骤如下。假设，

project-dir：工作根目录，可按实际情况设置。
data-dir：数据目录，本例为 ${project-dir}/data/。
model_pretrain_dir：预训练模型目录，本例为 ${project-dir}/model/。
model_save_dir：精调最优模型参数存储目录，本例为 ${project-dir}/saved_models/。
best_model_save_name：精调最优模型参数文件名，本例为 best_cino.pth。

第一步：模型准备

在模型下载章节中，下载CINO-large模型，并解压至${project-dir}/model/。该目录下应包含pytorch_model.bin，sentencepiece.bpe.model，config.json，共计3个文件。

第二步：数据准备

参照藏语文本分类（TNCC）章节中的说明，下载TNCC数据集并按照"8:1:1"划分数据集并放到${data-dir}，并将训练集、开发集和测试集分别命名为train.txt、dev.txt和test.txt。

第三步：运行训练命令

python tncc_finetune.py --params cino-params.json

params是一个JSON词典，在本例中的cino-params.json包含了精调相关参数，例如：

{
    "learning_rate":5e-6,
    "epoch":5,
    "gradient_acc":4,
    "batch_size":16,
    "max_len":512,
    "weight_decay":1e-4,
    "warmup_rate":0.1,
    "data_dir":"data/",
    "model_pretrain_dir":"model/", 
    "model_save_dir":"saved_models/",
    "best_model_save_name":"best_cino.pth",
    "class_names":["Politics", "Economics", "Education", "Tourism", "Environment", "Language", "Literature", "Religion", "Arts", "Medicine", "Customs", "Instruments"]
}

运行完毕后，精调过程的日志信息和模型测试结果可在${project-dir}/log/cino_tncc.log中查看。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

使用方法

测试环境

示例步骤

第一步：模型准备

第二步：数据准备

第三步：运行训练命令

Files

README.md

Latest commit

History

README.md

File metadata and controls

使用方法

测试环境

示例步骤

第一步：模型准备

第二步：数据准备

第三步：运行训练命令