How to expand English vocabulary in llama tokenizer? #25

ClinuxMDL · 2023-12-13T15:27:16Z

感谢作者的有帮助性的工作。想问一下在模型预训练阶段的一些问题：
1、针对生物或医学类的词汇，如何扩充到现有的llama词汇表中？
2、重新制作目前新语料的tokens会带来更好的loss收益么？
3、我试着用目前的预料切了一下生物类的专业词汇，看起来切得比较散，不知道您有没有注意到这一点。4、我发现在训练过程中1个epoch下来loss降得有限，后面必须要多个epoch的loss才能降下来，这样的话无疑增加了很多训练时间？
5、预训练的loss一般需要达到多少是比较能够往SFT继续走的水平？

期待作者的回复，感谢！

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

How to expand English vocabulary in llama tokenizer? #25

How to expand English vocabulary in llama tokenizer? #25

ClinuxMDL commented Dec 13, 2023

How to expand English vocabulary in llama tokenizer? #25

How to expand English vocabulary in llama tokenizer? #25

Comments

ClinuxMDL commented Dec 13, 2023