Skip to content

整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主,包括底座模型,垂直领域微调及应用,数据集与教程等。

Notifications You must be signed in to change notification settings

jyjfjyjf/Awesome-Chinese-LLM

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 

Repository files navigation

Awesome-Chinese-LLM

Awesome-Chinese-LLM

An Awesome Collection for LLM in Chinese

收集和梳理中文LLM相关

GitHub stars GitHub issues GitHub forks

自ChatGPT为代表的大语言模型(Large Language Model, LLM)出现以后,由于其惊人的类通用人工智能(AGI)的能力,掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后,业界涌现了非常多基于LLM的二次微调或应用的案例。本项目旨在收集和梳理中文LLM相关的开源模型、应用、数据集及教程等资料,目前收录的资源已达100+个!

如果本项目能给您带来一点点帮助,麻烦点个⭐️吧~

同时也欢迎大家贡献本项目未收录的开源模型、应用、数据集等。提供新的仓库信息请发起PR,并按照本项目的格式提供仓库链接、star数,简介等相关信息,感谢~

Awesome-Chinese-LLM

常见底座模型细节概览:

底座名称 模型参数大小 训练token数 训练最大长度 是否可商用
ChatGLM 6B 1T 2K 可商用
ChatGLM2 6B 1.4T 32K 可商用
LLaMA 7B/13B/33B/65B 1T 2k 不可商用
LLaMA2 7B/13B/33B/65B 2T 4k 可商用
BLOOM 1B7/7B1/176B-MT 1.5T 2k 可商用
Baichuan 7B/13B 1.2T/1.4T 4k 可商用
Falcon 7B/40B 1.5T 2k 可商用
Qwen 7B/7B-Chat 2.2T 8k 可商用
Alpaca 7B/Chat-7B - 2k 可商用

目录

1. 模型

1.1 文本LLM模型

  • ChatGLM:

    • 地址:https://github.com/THUDM/ChatGLM-6B
    • 简介:中文领域效果最好的开源底座模型之一,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持
  • ChatGLM2-6B

    • 地址:https://github.com/THUDM/ChatGLM2-6B
    • 简介:基于开源中英双语对话模型 ChatGLM-6B 的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,引入了GLM 的混合目标函数,经过了 1.4T 中英标识符的预训练与人类偏好对齐训练;基座模型的上下文长度扩展到了 32K,并在对话阶段使用 8K 的上下文长度训练;基于 Multi-Query Attention 技术实现更高效的推理速度和更低的显存占用;允许商业使用。
  • Chinese-LLaMA-Alpaca:

  • Chinese-LLaMA-Alpaca-2:

  • Chinese-LlaMA2:

    • 地址:https://github.com/michael-wzhu/Chinese-LlaMA2
    • 简介:该项目基于可商用的LLaMA-2进行二次开发决定在次开展Llama 2的中文汉化工作,包括Chinese-LlaMA2: 对Llama 2进行中文预训练;第一步:先在42G中文预料上进行训练;后续将会加大训练规模;Chinese-LlaMA2-chat: 对Chinese-LlaMA2进行指令微调和多轮对话微调,以适应各种应用场景和多轮对话交互。同时我们也考虑更为快速的中文适配方案:Chinese-LlaMA2-sft-v0: 采用现有的开源中文指令微调或者是对话数据,对LlaMA-2进行直接微调 (将于近期开源)。
  • Llama2-Chinese:

  • OpenChineseLLaMA:

    • 地址:https://github.com/OpenLMLab/OpenChineseLLaMA
    • 简介:基于 LLaMA-7B 经过中文数据集增量预训练产生的中文大语言模型基座,对比原版 LLaMA,该模型在中文理解能力和生成能力方面均获得较大提升,在众多下游任务中均取得了突出的成绩。
  • BELLE:

    • 地址:https://github.com/LianjiaTech/BELLE
    • 简介:开源了基于BLOOMZ和LLaMA优化后的一系列模型,同时包括训练数据、相关模型、训练代码、应用场景等,也会持续评估不同训练数据、训练算法等对模型表现的影响。
  • Panda:

  • Robin (罗宾):

    • 地址:https://github.com/OptimalScale/LMFlow
    • 简介:Robin (罗宾)是香港科技大学LMFlow团队开发的中英双语大语言模型。仅使用180K条数据微调得到的Robin第二代模型,在Huggingface榜单上达到了第一名的成绩。LMFlow支持用户快速训练个性化模型,仅需单张3090和5个小时即可微调70亿参数定制化模型。
  • Fengshenbang-LM:

    • 地址:https://github.com/IDEA-CCNL/Fengshenbang-LM
    • 简介:Fengshenbang-LM(封神榜大模型)是IDEA研究院认知计算与自然语言研究中心主导的大模型开源体系,该项目开源了姜子牙通用大模型V1,是基于LLaMa的130亿参数的大规模预训练模型,具备翻译,编程,文本分类,信息抽取,摘要,文案生成,常识问答和数学计算等能力。除姜子牙系列模型之外,该项目还开源了太乙、二郎神系列等模型。
  • BiLLa:

    • 地址:https://github.com/Neutralzz/BiLLa
    • 简介:该项目开源了推理能力增强的中英双语LLaMA模型。模型的主要特性有:较大提升LLaMA的中文理解能力,并尽可能减少对原始LLaMA英文能力的损伤;训练过程增加较多的任务型数据,利用ChatGPT生成解析,强化模型理解任务求解逻辑;全量参数更新,追求更好的生成效果。
  • Moss:

    • 地址:https://github.com/OpenLMLab/MOSS
    • 简介:支持中英双语和多种插件的开源对话语言模型,MOSS基座语言模型在约七千亿中英文以及代码单词上预训练得到,后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。
  • Luotuo-Chinese-LLM:

  • Linly:

    • 地址:https://github.com/CVI-SZU/Linly
    • 简介:提供中文对话模型 Linly-ChatFlow 、中文基础模型 Linly-Chinese-LLaMA 及其训练数据。 中文基础模型以 LLaMA 为底座,利用中文和中英平行增量预训练。项目汇总了目前公开的多语言指令数据,对中文模型进行了大规模指令跟随训练,实现了 Linly-ChatFlow 对话模型。
  • Firefly:

    • 地址:https://github.com/yangjianxin1/Firefly
    • 简介:Firefly(流萤) 是一个开源的中文大语言模型项目,开源包括数据、微调代码、多个基于Bloom、baichuan等微调好的模型等;支持全量参数指令微调、QLoRA低成本高效指令微调、LoRA指令微调;支持绝大部分主流的开源大模型,如百川baichuan、Ziya、Bloom、LLaMA等。持lora与base model进行权重合并,推理更便捷。
  • ChatYuan

  • ChatRWKV:

    • 地址:https://github.com/BlinkDL/ChatRWKV
    • 简介:开源了一系列基于RWKV架构的Chat模型(包括英文和中文),发布了包括Raven,Novel-ChnEng,Novel-Ch与Novel-ChnEng-ChnPro等模型,可以直接闲聊及进行诗歌,小说等创作,包括7B和14B等规模的模型。
  • CPM-Bee

    • 地址:https://github.com/OpenBMB/CPM-Bee
    • 简介:一个完全开源、允许商用的百亿参数中英文基座模型。它采用Transformer自回归架构(auto-regressive),在超万亿(trillion)高质量语料上进行预训练,拥有强大的基础能力。开发者和研究者可以在CPM-Bee基座模型的基础上在各类场景进行适配来以创建特定领域的应用模型。
  • TigerBot

    • 地址:https://github.com/TigerResearch/TigerBot
    • 简介:一个多语言多任务的大规模语言模型(LLM),开源了包括模型:TigerBot-7B, TigerBot-7B-base,TigerBot-180B,基本训练和推理代码,100G预训练数据,涵盖金融、法律、百科的领域数据以及API等。
  • 书生·浦语

    • 地址:https://github.com/InternLM/InternLM-techreport
    • 简介:商汤科技、上海AI实验室联合香港中文大学、复旦大学和上海交通大学发布千亿级参数大语言模型“书生·浦语”(InternLM)。据悉,“书生·浦语”具有1040亿参数,基于“包含1.6万亿token的多语种高质量数据集”训练而成。
  • Aquila

    • 地址:https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila
    • 简介:由智源研究院发布,Aquila语言大模型在技术上继承了GPT-3、LLaMA等的架构设计优点,替换了一批更高效的底层算子实现、重新设计实现了中英双语的tokenizer,升级了BMTrain并行训练方法,是在中英文高质量语料基础上从0开始训练的,通过数据质量的控制、多种训练的优化方法,实现在更小的数据集、更短的训练时间,获得比其它开源模型更优的性能。也是首个支持中英双语知识、支持商用许可协议、符合国内数据合规需要的大规模开源语言模型。
  • Baichuan-7B

    • 地址:https://github.com/baichuan-inc/baichuan-7B
    • 简介:Baichuan-13B 是由百川智能继 Baichuan-7B 之后开发的包含 130 亿参数的开源可商用的大规模语言模型,在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。该项目发布包含有预训练 (Baichuan-13B-Base) 和对齐 (Baichuan-13B-Chat) 两个版本。
  • Baichuan-13B

    • 地址:https://github.com/baichuan-inc/Baichuan-13B
    • 简介:由百川智能开发的一个开源可商用的大规模预训练语言模型。基于Transformer结构,在大约1.2万亿tokens上训练的70亿参数模型,支持中英双语,上下文窗口长度为4096。在标准的中文和英文权威benchmark(C-EVAL/MMLU)上均取得同尺寸最好的效果。
  • Anima

    • 地址:https://github.com/lyogavin/Anima
    • 简介:由艾写科技开发的一个开源的基于QLoRA的33B中文大语言模型,该模型基于QLoRA的Guanaco 33B模型使用Chinese-Vicuna项目开放的训练数据集guanaco_belle_merge_v1.0进行finetune训练了10000个step,基于Elo rating tournament评估效果较好。
  • KnowLM

    • 地址:https://github.com/zjunlp/KnowLM
    • 简介:KnowLM项目旨在发布开源大模型框架及相应模型权重以助力减轻知识谬误问题,包括大模型的知识难更新及存在潜在的错误和偏见等。该项目一期发布了基于Llama的抽取大模型智析,使用中英文语料对LLaMA(13B)进行进一步全量预训练,并基于知识图谱转换指令技术对知识抽取任务进行优化。
  • BayLing

    • 地址:https://github.com/ictnlp/BayLing
    • 简介:一个具有增强的跨语言对齐的通用大模型,由中国科学院计算技术研究所自然语言处理团队开发。百聆(BayLing)以LLaMA为基座模型,探索了以交互式翻译任务为核心进行指令微调的方法,旨在同时完成语言间对齐以及与人类意图对齐,将LLaMA的生成能力和指令跟随能力从英语迁移到其他语言(中文)。在多语言翻译、交互翻译、通用任务、标准化考试的测评中,百聆在中文/英语中均展现出更好的表现。百聆提供了在线的内测版demo,以供大家体验。
  • YuLan-Chat

    • 地址:https://github.com/RUC-GSAI/YuLan-Chat
    • 简介:YuLan-Chat是中国人民大学GSAI研究人员开发的基于聊天的大语言模型。它是在LLaMA的基础上微调开发的,具有高质量的英文和中文指令。 YuLan-Chat可以与用户聊天,很好地遵循英文或中文指令,并且可以在量化后部署在GPU(A800-80G或RTX3090)上。
  • PolyLM

    • 地址:https://github.com/DAMO-NLP-MT/PolyLM
    • 简介:一个在6400亿个词的数据上从头训练的多语言语言模型,包括两种模型大小(1.7B和13B)。PolyLM覆盖中、英、俄、西、法、葡、德、意、荷、波、阿、土、希伯来、日、韩、泰、越、印尼等语种,特别是对亚洲语种更友好。
  • AtomGPT

    • 地址:https://github.com/AtomEcho/AtomGPT
    • 简介:AtomGPT基于LLaMA的模型架构,从0开始训练,希望能在训练的过程中,将模型能力得到提升的进化过程展示出来,感受到模型学习的过程,该项目开源了多个不同预训练步数下的指令微调模型。
  • Qwen-7B

    • 地址:https://github.com/QwenLM/Qwen-7B
    • 简介:通义千问-7B(Qwen-7B) 是阿里云研发的通义千问大模型系列的70亿参数规模的模型,使用了超过2.2万亿token的自建大规模预训练数据集进行语言模型的预训练。数据集包括文本和代码等多种数据类型,覆盖通用领域和专业领域,能支持8K的上下文长度,针对插件调用相关的对齐数据做了特定优化,当前模型能有效调用插件以及升级为Agent。
  • huozi

    • 地址:https://github.com/HIT-SCIR/huozi
    • 简介:由哈工大自然语言处理研究所多位老师和学生参与开发的一个开源可商用的大规模预训练语言模型。 该模型基于 Bloom 结构的70 亿参数模型,支持中英双语,上下文窗口长度为 2048,同时还开源了基于RLHF训练的模型以及全人工标注的的中文偏好数据集。
  • XVERSE-13B

    • 地址:https://github.com/xverse-ai/XVERSE-13B
    • 简介:由深圳元象科技自主研发的支持多语言的大语言模型,使用主流 Decoder-only 的标准Transformer网络结构,支持 8K 的上下文长度(Context Length),为同尺寸模型中最长,构建了 1.4 万亿 token 的高质量、多样化的数据对模型进行充分训练,包含中、英、俄、西等 40 多种语言,通过精细化设置不同类型数据的采样比例,使得中英两种语言表现优异,也能兼顾其他语言效果;基于BPE算法使用上百GB 语料训练了一个词表大小为100,278的分词器,能够同时支持多语言,而无需额外扩展词表。

1.2 多模态LLM模型

  • VisualGLM-6B

    • 地址:https://github.com/THUDM/VisualGLM-6B
    • 简介:一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。依靠来自于 CogView 数据集的30M高质量中文图文对,与300M经过筛选的英文图文对进行预训练。
  • VisCPM

    • 地址:https://github.com/OpenBMB/VisCPM
    • 简介:一个开源的多模态大模型系列,支持中英双语的多模态对话能力(VisCPM-Chat模型)和文到图生成能力(VisCPM-Paint模型)。VisCPM基于百亿参数量语言大模型CPM-Bee(10B)训练,融合视觉编码器(Q-Former)和视觉解码器(Diffusion-UNet)以支持视觉信号的输入和输出。得益于CPM-Bee基座优秀的双语能力,VisCPM可以仅通过英文多模态数据预训练,泛化实现优秀的中文多模态能力。
  • Visual-Chinese-LLaMA-Alpaca

    • 地址:https://github.com/airaria/Visual-Chinese-LLaMA-Alpaca
    • 简介:基于中文LLaMA&Alpaca大模型项目开发的多模态中文大模型。VisualCLA在中文LLaMA/Alpaca模型上增加了图像编码等模块,使LLaMA模型可以接收视觉信息。在此基础上,使用了中文图文对数据进行了多模态预训练,对齐图像与文本表示,赋予其基本的多模态理解能力;并使用多模态指令数据集精调,增强其对多模态指令的理解、执行和对话能力,目前开源了VisualCLA-7B-v0.1。
  • LLaSM

    • 地址:https://github.com/LinkSoul-AI/LLaSM
    • 简介:第一个支持中英文双语语音-文本多模态对话的开源可商用对话模型。便捷的语音输入将大幅改善以文本为输入的大模型的使用体验,同时避免了基于 ASR 解决方案的繁琐流程以及可能引入的错误。目前开源了LLaSM-Chinese-Llama-2-7B、LLaSM-Baichuan-7B等模型与数据集。

2. 应用

2.1 垂直领域微调

医疗

  • DoctorGLM:

  • BenTsao:

    • 地址:https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese
    • 简介:开源了经过中文医学指令精调/指令微调(Instruct-tuning) 的LLaMA-7B模型。通过医学知识图谱和GPT3.5 API构建了中文医学指令数据集,并在此基础上对LLaMA进行了指令微调,提高了LLaMA在医疗领域的问答效果。
  • BianQue:

    • 地址:https://github.com/scutcyr/BianQue
    • 简介:一个经过指令与多轮问询对话联合微调的医疗对话大模型,基于ClueAI/ChatYuan-large-v2作为底座,使用中文医疗问答指令与多轮问询对话混合数据集进行微调。
  • HuatuoGPT:

  • Med-ChatGLM:

  • QiZhenGPT:

    • 地址:https://github.com/CMKRG/QiZhenGPT
    • 简介:该项目利用启真医学知识库构建的中文医学指令数据集,并基于此在LLaMA-7B模型上进行指令精调,大幅提高了模型在中文医疗场景下效果,首先针对药品知识问答发布了评测数据集,后续计划优化疾病、手术、检验等方面的问答效果,并针对医患问答、病历自动生成等应用展开拓展。
  • ChatMed:

    • 地址:https://github.com/michael-wzhu/ChatMed
    • 简介:该项目推出ChatMed系列中文医疗大规模语言模型,模型主干为LlaMA-7b并采用LoRA微调,具体包括ChatMed-Consult : 基于中文医疗在线问诊数据集ChatMed_Consult_Dataset的50w+在线问诊+ChatGPT回复作为训练集;ChatMed-TCM : 基于中医药指令数据集ChatMed_TCM_Dataset,以开源的中医药知识图谱为基础,采用以实体为中心的自指令方法(entity-centric self-instruct),调用ChatGPT得到2.6w+的围绕中医药的指令数据训练得到。
  • XrayGLM,首个会看胸部X光片的中文多模态医学大模型:

  • MeChat,中文心理健康支持对话大模型:

    • 地址:https://github.com/qiuhuachuan/smile
    • 简介:该项目开源的中文心理健康支持通用模型由 ChatGLM-6B LoRA 16-bit 指令微调得到。数据集通过调用gpt-3.5-turbo API扩展真实的心理互助 QA为多轮的心理健康支持多轮对话,提高了通用语言大模型在心理健康支持领域的表现,更加符合在长程多轮对话的应用场景。
  • MedicalGPT

    • 地址:https://github.com/shibing624/MedicalGPT
    • 简介:训练医疗大模型,实现包括二次预训练、有监督微调、奖励建模、强化学习训练。发布中文医疗LoRA模型shibing624/ziya-llama-13b-medical-lora,基于Ziya-LLaMA-13B-v1模型,SFT微调了一版医疗模型,医疗问答效果有提升,发布微调后的LoRA权重。
  • Sunsimiao

  • ShenNong-TCM-LLM

    • 地址:https://github.com/michael-wzhu/ShenNong-TCM-LLM
    • 简介:该项目开源了ShenNong中医药大规模语言模型,该模型以LlaMA为底座,采用LoRA (rank=16)微调得到。微调代码与ChatMed代码库相同。此外该项目还开源了中医药指令微调数据集。
  • SoulChat

    • 地址:https://github.com/scutcyr/SoulChat
    • 简介:该项目开源了经过百万规模心理咨询领域中文长文本指令与多轮共情对话数据联合指令微调的心理健康大模型灵心(SoulChat),该模型以ChatGLM-6B作为初始化模型,进行了全量参数的指令微调。
法律

  • 獬豸(LawGPT_zh): 中文法律对话语言模型

    • 地址:https://github.com/LiuHC0428/LAW-GPT
    • 简介: 本项目开源的中文法律通用模型由ChatGLM-6B LoRA 16-bit指令微调得到。数据集包括现有的法律问答数据集和基于法条和真实案例指导的self-Instruct构建的高质量法律文本问答,提高了通用语言大模型在法律领域的表现,提高了模型回答的可靠性和专业程度。
  • LaWGPT:基于中文法律知识的大语言模型

    • 地址:https://github.com/pengxiao-song/LaWGPT
    • 简介:该系列模型在通用中文基座模型(如 Chinese-LLaMA、ChatGLM 等)的基础上扩充法律领域专有词表、大规模中文法律语料预训练,增强了大模型在法律领域的基础语义理解能力。在此基础上,构造法律领域对话问答数据集、中国司法考试数据集进行指令精调,提升了模型对法律内容的理解和执行能力。
  • LexiLaw:中文法律大模型

    • 地址:https://github.com/CSHaitao/LexiLaw
    • 简介:LexiLaw 是一个基于 ChatGLM-6B微调的中文法律大模型,通过在法律领域的数据集上进行微调。该模型旨在为法律从业者、学生和普通用户提供准确、可靠的法律咨询服务,包括具体法律问题的咨询,还是对法律条款、案例解析、法规解读等方面的查询。
  • Lawyer LLaMA:中文法律LLaMA

    • 地址:https://github.com/AndrewZhe/lawyer-llama
    • 简介:开源了一系列法律领域的指令微调数据和基于LLaMA训练的中文法律大模型的参数。Lawyer LLaMA 首先在大规模法律语料上进行了continual pretraining。在此基础上,借助ChatGPT收集了一批对中国国家统一法律职业资格考试客观题(以下简称法考)的分析和对法律咨询的回答,利用收集到的数据对模型进行指令微调,让模型习得将法律知识应用到具体场景中的能力。
  • 韩非(HanFei)

  • ChatLaw-法律大模型

    • 地址:https://github.com/PKU-YuanGroup/ChatLaw
    • 简介:由北大开源的一系列法律领域的大模型,包括ChatLaw-13B(基于姜子牙Ziya-LLaMA-13B-v1训练而来),ChatLaw-33B(基于Anima-33B训练而来,逻辑推理能力大幅提升),ChatLaw-Text2Vec,使用93w条判决案例做成的数据集基于BERT训练了一个相似度匹配模型,可将用户提问信息和对应的法条相匹配。
  • lychee_law-律知

    • 地址:https://github.com/davidpig/lychee_law
    • 简介:该项目由德国萨尔大学团队和中国南京大学团队合作开发,开源一系列中文司法领域大模型,如Law-GLM-10B: 基于 GLM-10B 模型, 在 30GB 中文法律数据上进行指令微调得到的。
金融

  • Cornucopia(聚宝盆):基于中文金融知识的LLaMA微调模型

    • 地址:https://github.com/jerry1993-tech/Cornucopia-LLaMA-Fin-Chinese
    • 简介:开源了经过中文金融知识指令精调/指令微调(Instruct-tuning) 的LLaMA-7B模型。通过中文金融公开数据+爬取的金融数据构建指令数据集,并在此基础上对LLaMA进行了指令微调,提高了 LLaMA 在金融领域的问答效果。基于相同的数据,后期还会利用GPT3.5 API构建高质量的数据集,另在中文知识图谱-金融上进一步扩充高质量的指令数据集。
  • BBT-FinCUGE-Applications

  • XuanYuan(轩辕):首个千亿级中文金融对话模型

    • 地址:https://github.com/Duxiaoman-DI/XuanYuan
    • 简介:轩辕是国内首个开源的千亿级中文对话大模型,同时也是首个针对中文金融领域优化的千亿级开源对话大模型。轩辕在BLOOM-176B的基础上针对中文通用领域和金融领域进行了针对性的预训练与微调,它不仅可以应对通用领域的问题,也可以解答与金融相关的各类问题,为用户提供准确、全面的金融信息和建议。
  • FinGPT

教育
  • 桃李(Taoli):

    • 地址:https://github.com/blcuicall/taoli
    • 简介:一个在国际中文教育领域数据上进行了额外训练的模型。项目基于目前国际中文教育领域流通的500余册国际中文教育教材与教辅书、汉语水平考试试题以及汉语学习者词典等,构建了国际中文教育资源库,构造了共计 88000 条的高质量国际中文教育问答数据集,并利用收集到的数据对模型进行指令微调,让模型习得将知识应用到具体场景中的能力。
  • EduChat:

    • 地址:https://github.com/icalk-nlp/EduChat
    • 简介:该项目华东师范大学计算机科学与技术学院的EduNLP团队研发,主要研究以预训练大模型为基底的教育对话大模型相关技术,融合多样化的教育垂直领域数据,辅以指令微调、价值观对齐等方法,提供教育场景下自动出题、作业批改、情感支持、课程辅导、高考咨询等丰富功能,服务于广大老师、学生和家长群体,助力实现因材施教、公平公正、富有温度的智能教育。
  • chatglm-maths:

  • QiaoBan:

    • 地址:https://github.com/HIT-SCIR-SC/QiaoBan
    • 简介:该项目旨在构建一个面向儿童情感陪伴的大模型,这个仓库包含:用于指令微调的对话数据/data,巧板的训练代码,训练配置文件,使用巧板进行对话的示例代码(TODO,checkpoint将发布至huggingface)。
科技
  • 天文大语言模型StarGLM:

    • 地址:https://github.com/Yu-Yang-Li/StarGLM
    • 简介:基于ChatGLM训练了天文大语言模型,以期缓解大语言模型在部分天文通用知识和前沿变星领域的幻觉现象,为接下来可处理天文多模态任务、部署于望远镜阵列的观测Agent——司天大脑(数据智能处理)打下基础。
  • TransGPT·致远:

    • 地址:https://github.com/DUOMO/TransGPT
    • 简介:开源交通大模型,主要致力于在真实交通行业中发挥实际价值。它能够实现交通情况预测、智能咨询助手、公共交通服务、交通规划设计、交通安全教育、协助管理、交通事故报告和分析、自动驾驶辅助系统等功能。
  • Mozi:

自媒体
  • MediaGPT:
    • 地址:https://github.com/IMOSR/MediaGPT
    • 简介:一个针对自媒体领域进行特殊训练的模型,首先在大规模自媒体语料上进行连续预训练,然后ChatGPT收集了一批关于抖音运营、短视频创作、巨量千川投放、直播运营和直播话术技巧等领域知识问题的分析和回答,并利用这些数据对模型进行指令微调,开源一系列自媒体领域的指令微调数据和基于LLaMA训练的中文自媒体大模型的参数。

2.2 LangChain应用

2.3 其他应用

3. 数据集

预训练数据集

  • MNBVC

    • 地址:https://github.com/esbatmop/MNBVC
    • 数据集说明:超大规模中文语料集,不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。数据均来源于互联网收集,且在持续更新中。
  • WuDaoCorporaText

    • 地址:https://data.baai.ac.cn/details/WuDaoCorporaText
    • 数据集说明:WuDaoCorpora是北京智源人工智能研究院(智源研究院)构建的大规模、高质量数据集,用于支撑大模型训练研究。目前由文本、对话、图文对、视频文本对四部分组成,分别致力于构建微型语言世界、提炼对话核心规律、打破图文模态壁垒、建立视频文字关联,为大模型训练提供坚实的数据支撑。
  • CLUECorpus2020

    • 地址:https://github.com/CLUEbenchmark/CLUECorpus2020
    • 数据集说明:通过对Common Crawl的中文部分进行语料清洗,最终得到100GB的高质量中文预训练语料,可直接用于预训练、语言模型或语言生成任务以及专用于简体中文NLP任务的小词表。

SFT数据集

  • RefGPT:基于RefGPT生成大量真实和定制的对话数据集

    • 地址:https://github.com/DA-southampton/RedGPT
    • 数据集说明:包括RefGPT-Fact和RefGPT-Code两部分,其中RefGPT-Fact给出了5万中文的关于事实性知识的多轮对话,RefGPT-Code给出了3.9万中文编程相关的多轮对话数据。
  • COIG

    • 地址:https://huggingface.co/datasets/BAAI/COIG
    • 数据集说明:维护了一套无害、有用且多样化的中文指令语料库,包括一个人工验证翻译的通用指令语料库、一个人工标注的考试指令语料库、一个人类价值对齐指令语料库、一个多轮反事实修正聊天语料库和一个 leetcode 指令语料库。
  • generated_chat_0.4M:

  • alpaca_chinese_dataset:

  • Alpaca-CoT:

    • 地址:https://github.com/PhoebusSi/Alpaca-CoT
    • 数据集说明:统一了丰富的IFT数据(如CoT数据,目前仍不断扩充)、多种训练效率方法(如lora,p-tuning)以及多种LLMs,三个层面上的接口,打造方便研究人员上手的LLM-IFT研究平台。
  • pCLUE:

  • firefly-train-1.1M:

  • BELLE-data-1.5M:

  • Chinese Scientific Literature Dataset:

    • 地址:https://github.com/ydli-ai/csl
    • 数据集说明:中文科学文献数据集(CSL),包含 396,209 篇中文核心期刊论文元信息 (标题、摘要、关键词、学科、门类)以及简单的prompt
  • Chinese medical dialogue data:

    • 地址:https://github.com/Toyhom/Chinese-medical-dialogue-data
    • 数据集说明:中文医疗对话数据集,包括:<Andriatria_男科> 94596个问答对 <IM_内科> 220606个问答对 <OAGD_妇产科> 183751个问答对 <Oncology_肿瘤科> 75553个问答对 <Pediatric_儿科> 101602个问答对 <Surgical_外科> 115991个问答对 总计 792099个问答对。
  • Huatuo-26M:

    • 地址:https://github.com/FreedomIntelligence/Huatuo-26M
    • 数据集说明:Huatuo-26M 是一个中文医疗问答数据集,此数据集包含了超过2600万个高质量的医疗问答对,涵盖了各种疾病、症状、治疗方式、药品信息等多个方面。Huatuo-26M 是研究人员、开发者和企业为了提高医疗领域的人工智能应用,如聊天机器人、智能诊断系统等需要的重要资源。
  • Alpaca-GPT-4:

  • InstructionWild

    • 地址:https://github.com/XueFuzhao/InstructionWild
    • 数据集说明:InstructionWild 是一个从网络上收集自然指令并过滤之后使用自然指令结合 ChatGPT 接口生成指令微调数据集的项目。主要的指令来源:Twitter、CookUp.AI、Github 和 Discard。
  • ShareChat

    • 地址:https://paratranz.cn/projects/6725
    • 数据集说明:一个倡议大家一起翻译高质量 ShareGPT 数据的项目。
    • 项目介绍:清洗/构造/翻译中文的ChatGPT数据,推进国内AI的发展,人人可炼优质中文 Chat 模型。本数据集为ChatGPT约九万个对话数据,由ShareGPT API获得(英文68000,中文11000条,其他各国语言)。项目所有数据最终将以 CC0 协议并入 Multilingual Share GPT 语料库。
  • Guanaco

  • chatgpt-corpus

  • SmileConv

    • 地址:https://github.com/qiuhuachuan/smile
    • 数据集说明:数据集通过ChatGPT改写真实的心理互助 QA为多轮的心理健康支持多轮对话(single-turn to multi-turn inclusive language expansion via ChatGPT),该数据集含有56k个多轮对话,其对话主题、词汇和篇章语义更加丰富多样,更加符合在长程多轮对话的应用场景。

PPO数据集

  • CValues

    • 地址:https://github.com/X-PLUG/CValues
    • 数据集说明:该项目开源了数据规模为145k的价值对齐数据集,该数据集对于每个prompt包括了拒绝&正向建议 (safe and reponsibility) > 拒绝为主(safe) > 风险回复(unsafe)三种类型,可用于增强SFT模型的安全性或用于训练reward模型。
  • GPT-4-LLM

  • zhihu_rlhf_3k

    • 地址:https://huggingface.co/datasets/liyucheng/zhihu_rlhf_3k
    • 数据集说明:该项目开源了3k+条基于知乎问答的人类偏好数据集,每个实际的知乎问题下给出了赞同数据较高(chosen)和较低(rejected)的回答,可以用于奖励模型的训练。

4. LLM评测

  • FlagEval (天秤)大模型评测体系及开放平台

    • 地址:https://github.com/FlagOpen/FlagEval
    • 简介:旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用AI方法实现对主观评测的辅助,大幅提升评测的效率和客观性。FlagEval (天秤)创新构建了“能力-任务-指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果。
  • C-Eval: 构造中文大模型的知识评估基准:

    • 地址:https://github.com/SJTU-LIT/ceval
    • 简介:构造了一个覆盖人文,社科,理工,其他专业四个大方向,52 个学科(微积分,线代 …),从中学到大学研究生以及职业考试,一共 13948 道题目的中文知识和推理型测试集。此外还给出了当前主流中文LLM的评测结果。
  • OpenCompass:

    • 地址:https://github.com/InternLM/opencompass
    • 简介:由上海AI实验室发布的面向大模型评测的一站式平台。主要特点包括:开源可复现;全面的能力维度:五大维度设计,提供 50+ 个数据集约 30 万题的的模型评测方案;丰富的模型支持:已支持 20+ HuggingFace 及 API 模型;分布式高效评测:一行命令实现任务分割和分布式评测,数小时即可完成千亿模型全量评测;多样化评测范式:支持零样本、小样本及思维链评测,结合标准型或对话型提示词模板;灵活化拓展。
  • SuperCLUElyb: SuperCLUE琅琊榜

    • 地址:https://github.com/CLUEbenchmark/SuperCLUElyb
    • 简介:中文通用大模型匿名对战评价基准,这是一个中文通用大模型对战评价基准,它以众包的方式提供匿名、随机的对战。他们发布了初步的结果和基于Elo评级系统的排行榜。
  • GAOKAO-Bench:

    • 地址:https://github.com/OpenLMLab/GAOKAO-Bench
    • 简介:GAOKAO-bench是一个以中国高考题目为数据集,测评大模型语言理解能力、逻辑推理能力的测评框架,收集了2010-2022年全国高考卷的题目,其中包括1781道客观题和1030道主观题,构建起GAOKAO-bench的数据部分。
  • AGIEval:

    • 地址:https://github.com/microsoft/AGIEval
    • 简介:由微软发布的一项新型基准测试,这项基准选取20种面向普通人类考生的官方、公开、高标准往常和资格考试,包括普通大学入学考试(中国高考和美国 SAT 考试)、法学入学考试、数学竞赛、律师资格考试、国家公务员考试等等。
  • Xiezhi:

    • 地址:https://github.com/mikegu721/xiezhibenchmark
    • 简介:由复旦大学发布的一个综合的、多学科的、能够自动更新的领域知识评估Benchmark,包含了哲学、经济学、法学、教育学、文学、历史学、自然科学、工学、农学、医学、军事学、管理学、艺术学这13个学科门类,24万道学科题目,516个具体学科,249587道题目。
  • Open LLM Leaderboard:

  • CMMLU:

    • 地址:https://github.com/haonan-li/CMMLU
    • 简介:CMMLU是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外,CMMLU中的许多任务具有中国特定的答案,可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。
  • MMCU:

    • 地址:https://github.com/Felixgithub2017/MMCU
    • 简介:该项目提供对中文大模型语义理解能力的测试,评测方式、评测数据集、评测记录都公开,确保可以复现。该项目旨在帮助各位研究者们评测自己的模型性能,并验证训练策略是否有效。
  • chinese-llm-benchmark:

    • 地址:https://github.com/jeinlee1991/chinese-llm-benchmark
    • 简介:中文大模型能力评测榜单:覆盖百度文心一言、chatgpt、阿里通义千问、讯飞星火、belle / chatglm6b 等开源大模型,多维度能力评测。不仅提供能力评分排行榜,也提供所有模型的原始输出结果!
  • Safety-Prompts:

    • 地址:https://github.com/thu-coai/Safety-Prompts
    • 简介:由清华大学提出的一个关于LLM安全评测benchmark,包括安全评测平台等,用于评测和提升大模型的安全性,囊括了多种典型的安全场景和指令攻击的prompt。
  • PromptCBLUE: 中文医疗场景的LLM评测基准

    • 地址:https://github.com/michael-wzhu/PromptCBLUE
    • 简介:为推动LLM在医疗领域的发展和落地,由华东师范大学联合阿里巴巴天池平台,复旦大学附属华山医院,东北大学,哈尔滨工业大学(深圳),鹏城实验室与同济大学推出PromptCBLUE评测基准, 将16种不同的医疗场景NLP任务全部转化为基于提示的语言生成任务,形成首个中文医疗场景的LLM评测基准。

5. LLM教程

LLM基础知识

提示工程教程

  • 面向开发者的 LLM 入门课程:

    • 地址:https://github.com/datawhalechina/prompt-engineering-for-developers
    • 简介:一个中文版的大模型入门教程,围绕吴恩达老师的大模型系列课程展开,主要包括:吴恩达《ChatGPT Prompt Engineering for Developers》课程中文版,吴恩达《Building Systems with the ChatGPT API》课程中文版,吴恩达《LangChain for LLM Application Development》课程中文版等。
  • 提示工程指南:

    • 地址:https://www.promptingguide.ai/zh
    • 简介:该项目基于对大语言模型的浓厚兴趣,编写了这份全新的提示工程指南,介绍了大语言模型相关的论文研究、学习指南、模型、讲座、参考资料、大语言模型能力以及与其他与提示工程相关的工具。
  • awesome-chatgpt-prompts-zh:

LLM应用教程

  • LangChain 🦜️🔗 中文网,跟着LangChain一起学LLM/GPT开发:

    • 地址:https://www.langchain.asia
    • 简介:Langchain的中文文档,由是两个在LLM创业者维护,希望帮助到从刚进入AI应用开发的朋友们。
  • OpenAI Cookbook:

  • 构筑大语言模型应用:应用开发与架构设计:

    • 地址:https://github.com/phodal/aigc
    • 简介:该项目开源了一本关于 LLM 在真实世界应用的开源电子书,介绍了大语言模型的基础知识和应用,以及如何构建自己的模型。其中包括Prompt的编写、开发和管理,探索最好的大语言模型能带来什么,以及LLM应用开发的模式和架构设计。

LLM实战教程

LLM高效微调教程

6. 相关仓库

Star History

Star History Chart

About

整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主,包括底座模型,垂直领域微调及应用,数据集与教程等。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published