请问一下蒸馏阶段的无监督数据指的是什么？ #8

hitnq · 2020-07-03T04:16:23Z

README中写到
蒸馏阶段使用无监督数据，可以增强模型的鲁棒性

请问一下这里的无监督数据指的是什么？有具体的例子吗？我看script_train_stage1.sh中使用的数据还是有标签的数据。

希望能帮忙解答一下，谢谢

BitVoyage · 2020-07-03T06:21:07Z

因为蒸馏阶段本质是学生学习老师的输出，那么可以是任何数据输入老师模型得到学生的学习目标。为了蒸馏效率，推荐使用和任务相关的数据（如待标注数据）来保持类别的均衡性，默认的script_train_stage1.sh直接使用了训练数据。

caijie12138 · 2020-07-03T16:04:54Z

哈哈哈 make sense
FastBert还是看做是一个半监督的分类器学习了

feiyuxiaoThu · 2020-07-22T02:22:30Z

请问一下，如果补充新的无标注的数据作为蒸馏阶段的数据，那么是将
--train_data 保持不变 --eval_data 更改为无标注数据即可吗？

Provide feedback