Skip to content
ymcui edited this page May 8, 2024 · 9 revisions

常见问题

问题1:为什么没有像一期、二期项目一样做词表扩充?

答:综合以下几个原因:1)Llama-3词表已扩展至128K,相比其前两代已有较大扩展;2)在中文维基百科上的编码效率测试表明,Llama-3词表的编码效率与我们的中文LLaMA-2基本相当(约95%);3)我们在中文Mixtral上的相关工作表明,扩展词表并非是大模型语言迁移的必要条件。相关实验可参阅我们的论文:https://arxiv.org/abs/2403.01851

问题2:会有70B版本发布吗?

答:目前暂不做保证。如有合适机会,会考虑进行训练。

问题3:为什么指令模型不叫Alpaca了?

答:受Llama-3许可证中对资源分发相关描述所限。

问题4:本仓库模型能否商用?

答:可以,但请提前仔细阅读原版Llama-3的商用许可要求。开发者应对使用相关模型的合规性负责,必要时寻求法务支持。本项目不对因使用相关模型产生的结果及其连带损失负责。

问题5:为什么不对模型做全量预训练而是用LoRA?

答:综合以下几个原因:1)训练成本和效率;2)Llama经历了三代,其中文能力也是逐步得到提升,通过LoRA增量训练能够快速地补充中文理解和生成能力;3)我们对开源社区的一些中文Llama-3模型进行了基准测试,发现全量参数训练的模型并不优于PEFT方法训练出的模型;综上所述,本项目使用LoRA是多种因素权衡之后的结果。

问题6:为什么Llama-3-Chinese对话效果不好?

答:Llama-3-Chinese是基础模型,不是对话模型,主要用于二次精调等用途。对话/问答等交互用途请使用Instruct版本。

问题7:为什么指令模型会回复说自己是ChatGPT?

答:我们在训练指令模型的时候并没有加入任何身份数据,因此模型的输出主要取决于SFT阶段的训练数据情况。由于SFT数据中添加了大量的ChatGPT爬取的数据,模型更倾向于拟合ChatGPT的行为,因此会回复自己是ChatGPT。建议用户不必纠结这一点。如有需要可以:1)编写系统指令,赋予模型身份信息;2)自行构造身份指令数据,在我们模型的基础上进一步精调。

问题8:Instrcut模型的v1(原版)和v2有什么区别?

答:Llama-3-Chinese-8B-Instruct(v1)在原版Meta-Llama-3-8B的基础上使用了120G中文语料进行预训练,然后进一步使用了500万条指令数据进行精调。Llama-3-Chinese-8B-Instruct-v2在原版Meta-Llama-3-8B-Instruct的基础上直接使用了500条指令数据进行精调。由于原版Meta-Llama-3-8B-Instruct的下游任务效果比Meta-Llama-3-8B要高,Llama-3-Chinese-8B-Instruct-v2的下游任务效果也比Llama-3-Chinese-8B-Instruct高一些。下游任务效果只是一方面,实际主观体验还需要针对不同场景选择适合的模型。

Clone this wiki locally