对话机器人学习笔记
语料库
- 腾讯AI实验室的语料库
- 悟道2.0语料 WuDaoCorpora2.0由全球最大的纯文本数据集(总量3TB、开源200GB)、全球最大的多模态数据集(93TB,6.5亿图文对,开源500w对)和全球最大的中文对话数据集(181G,对话轮数1.4B,不开源)三部分构成。
- CLUECorpus2020 通过对Common Crawl的中文部分进行语料清洗,最终得到100GB的高质量中文预训练语料
- 百度DuReader-Retrieval 百度利用真实场景下的用户搜索日志,建立了首个大规模高质量中文段落检索数据集
- 预训练大模型
- [2018]. Personalizing Dialogue Agents: I have a dog, do you have pets too?
- [GPT]
- GPT2
- [15.7k] GPT2
- izeyao/GPT2-Chinese 中文版GPT2
- [2020]. GPT3 【汉】
- lamda: language models for dialog applications【汉】
- Towards a Human-like Open-Domain Chatbot
- EVA2.0:大规模中文开放域对话预训练模型
- [2021]. Blender Bot 2.0
- CPM 清华做的中文预训练模型
- yangjianxin1/CPM 基于CPM的中文文本生成,开源代码库
- CPM-2: Large-scale Cost-effective Pre-trained Language Models 【汉】
- 任务
- [2022]. Language Models that Seek for Knowledge: Modular Search & Generation for Dialogue and Prompt Completion 引入搜索到的知识,包含三个模块依次得到:搜搜query,知识序列,最终的回应。在对话任务上超过了blender bot2,评价指标是知识性、事实正确、吸引力。在语言建模上,相比GPT2和GPT3,幻想更少,更有话题性。
- prompt干预
- [2021]. Controllable Generation from Pre-trained Language Models via Inverse Prompting 用反向prompt来校验prompt的输出
- [2021]. A General Language Assistant as a Laboratory for Alignment
- [2022]. Prompt-Driven Neural Machine Translation 尝试了单独给prompt一个encode,把prompt加载输入上等方式。
- [2022]. Chain of Thought Prompting Elicits Reasoning in Large Language Models
- RLHF
- [2021]. A General Language Assistant as a Laboratory for Alignment PMP,偏好模型预训练,用互联网数据如Reditt等的语料做预训练。
- 开源框架(2022-07-05更新star数)
- [9k] facebookresearch/ParlAI 提供开源对话数据集上训练和评估AI,有一些AI模型的实现
- huggingface/transformers 包含了很多ml的模型
- 对话模型
- [12.4k] ChatterBot 最近没怎么更新了
- chamkank/flask-chatterbot 基于ChatterBot做的一个简单的web对话机器人
- [4.8k] PaddlePaddle/PaddleNLP 百度开源的NLP项目
- unified_transformer
- plato-2 plato-2模型,开放域聊天机器人
- [4.4k] NVIDIA/NeMo 英伟达的对话机器人工具箱
- [3.4k] wzpan/wukong-robot 中文语音对话机器人/智能音箱项目
- [2.7k] zhaoyingjun/chatbot 这是一个可以使用自己语料进行训练的中文聊天机器人项目,包含tensorflow.2x版本和pytorch版本
- [806] tensorlayer/seq2seq-chatbot 200行的对话机器人
- [12.4k] ChatterBot 最近没怎么更新了
- Evolved Transformer【汉】【code】
- 卷积模型
- WaveNet
- Gated
- NASNet 【汉】
- 大公司产品
- 公开的api
- [16.2k] hubotio/hubot 也是一个机器人开发工具,但是好久不更新了
- [10.8k] howdyai/botkit 聊天机器人开发工具
- [2.7k] errbotio/errbot
- nonebot/awesome-nonebot
- botuniverse/onebot-11 OneBot 标准是从原 CKYU 平台的 CQHTTP 插件接口修改而来的通用聊天机器人应用接口标准。
- [2.1k] nonebot/nonebot2 python版本的qq聊天机器人,支持插件
- [650] FloatTech/ZeroBot-Plugin go版本的qq机器人插件,要跟下面的go-cqhttp配合
- [5.3k] Mrs4s/go-cqhttp cqhttp的golang实现,轻量、原生跨平台
- [737] qhduan/ConversationalRobotDesign 对话机器人(聊天机器人)设计思考
- [285] aceimnorstuvwxz/awesome-chatbot-list
- [5.4k] lcdevelop/ChatBotCourse 自己动手做聊天机器人教程