Skip to content

《ChatGPT原理与实战:大型语言模型的算法、技术和私有化》

License

Notifications You must be signed in to change notification settings

liucongg/ChatGPTBook

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

ChatGPTBook

本项目为书籍《ChatGPT原理与实战:大型语言模型的算法、技术和私有化》实战部分代码汇总。

项目介绍

增补内容

由于大模型技术发展迅速,一些新的前言内容书本无法快速更新,笔者会在此增补一些大模型相关知识内容,以补充书中的缺失。

勘误

该部分主要记录《ChatGPT原理与实战》的勘误内容,主要对错别字、笔误部分、歧义部分进行修改,也欢迎大家在issue里进行反馈。

序号 页数 原始内容 修改后内容
1 前言 SOTA(Stafe Of The Art) SOTA(State Of The Art)
2 2 2019年,OpenAI发布GPT-2,这是一个更强大的模型,具有1.5亿个参数,可以应用于自动生成文章、摘要、对话等任务。 2019年,OpenAI发布GPT-2,这是一个更强大的模型,具有15亿个参数,可以应用于自动生成文章、摘要、对话等任务。
3 2 2020年,OpenAI发布GPT-3,这是目前最强大的自然语言处理模型,具有1.75万亿个参数。 2020年,OpenAI发布GPT-3,这是目前最强大的自然语言处理模型,具有1750亿个参数。
4 14 由于BERT模型主要采用了解码层作为模型框架 由于BERT模型主要采用了编码层作为模型框架
5 18 UniLM并不是唯一想要统一上述任务的模型,谷歌发布的T5(Text-to-Text Transfer Transformer)模型也是一个优秀的模型。 UniLM并不是唯一想要统一上述任务的模型,谷歌发布编码-解码结构的模型—T5(Text-to-Text Transfer Transformer)也是一个优秀的模型。
6 18 GPT模型和T5模型的出现改变了大家认为解码类模型不能做语义分析任务的误区。在ChatGPT各项任务表现特别优异的当下,编码类模型变成最为火热的模型,将有更多从业者投入到相关模型的设计优化中。 GPT模型和T5模型的出现改变了大家认为生成类模型不能做语义分析任务的误区。在ChatGPT各项任务表现特别优异的当下,基于解码器结构的模型变成最为火热的模型,将有更多从业者投入到相关模型的设计优化中。
7 137 Unigram分词应用十分广泛,很多模型都采用这种分词方式作为分词器,如应用十分广泛的RoBERTa模型,它是由Facebook AI Research团队在2019年发布的一种基于预训练的模型,采用的是Transformer架构。这里我们采用由在Hugging Face上公布的一个基于RoBERTa模型架构提供的Unigram分词的模型。 Unigram分词应用十分广泛,很多模型都采用这种分词方式作为分词器。这里我们采用由在Hugging Face上发布的一个使用Unigram分词的模型作为样例。
8 194 并具有3H特性,即Helpful(有用的,可能帮助用户解决他们的任务)、Harmless(真实的,不应该编造信息误导用户)和Harmless(无害的,不应该对人或环境造成身体、心理或社会伤害) 并具有3H特性,即Helpful(有用的,可能帮助用户解决他们的任务)、Honest(真实的,不应该编造信息误导用户)和Harmless(无害的,不应该对人或环境造成身体、心理或社会伤害)
9 240 在RM阶段中,针对文档数据集,通过强化学习中的 PPO算法对 SFT 阶段的文档生成问题模型进行优化,以提高原始模型效果。 在RL阶段中,针对文档数据集,通过强化学习中的 PPO算法对 SFT 阶段的文档生成问题模型进行优化,以提高原始模型效果。

Citing

待补充

联系作者

e-mail:logcongcong@gmail.com

知乎:刘聪NLP

About

《ChatGPT原理与实战:大型语言模型的算法、技术和私有化》

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published