Skip to content

zyxdtk/ChatBot-Note

Repository files navigation

1. ChatBot-Note

对话机器人学习笔记

2. 文本对话

2.1. 数据集&指标

语料库

  • 腾讯AI实验室的语料库
  • 悟道2.0语料 WuDaoCorpora2.0由全球最大的纯文本数据集(总量3TB、开源200GB)、全球最大的多模态数据集(93TB,6.5亿图文对,开源500w对)和全球最大的中文对话数据集(181G,对话轮数1.4B,不开源)三部分构成。
  • CLUECorpus2020 通过对Common Crawl的中文部分进行语料清洗,最终得到100GB的高质量中文预训练语料
  • 百度DuReader-Retrieval 百度利用真实场景下的用户搜索日志,建立了首个大规模高质量中文段落检索数据集

2.2. 对话模型

2.3. 开源项目

2.4. NLP基础

3. 语音对话

ASR 语言识别

TTS 语言合成

视频对话

人物识别

3D人物建模

4. 产品

4.1. 业界产品

4.2. 对话界面

4.3. QQ机器人

5. 参考资料

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published