基于深度学习的中文语音识别系统,如果您觉得喜欢,请点一个 "Star" 吧~
ReadMe Language | 中文版 | English |
如果程序运行期间或使用中有什么问题,可以及时在issue中提出来,我将尽快做出答复。本项目作者交流QQ群:867888133
提问前可以先 查看常见问题 避免重复提问
ASRT的原理请查看本文:
关于经常被问到的统计语言模型原理的问题,请看:
本项目使用Keras、TensorFlow基于深度卷积神经网络和长短时记忆神经网络、注意力机制以及CTC实现。
This project uses Keras, TensorFlow based on deep convolutional neural network and long-short memory neural network, attention mechanism and CTC to implement.
- 操作步骤
首先通过Git将本项目克隆到您的计算机上,然后下载本项目训练所需要的数据集,下载链接详见文档末尾部分。
$ git clone https://github.com/nl8590687/ASRT_SpeechRecognition.git
或者您也可以通过 "Fork" 按钮,将本项目Copy一份副本,然后通过您自己的SSH密钥克隆到本地。
通过git克隆仓库以后,进入项目根目录;并创建子目录 dataset/
(可使用软链接代替),然后将下载好的数据集直接解压进去
$ cd ASRT_SpeechRecognition
$ mkdir dataset
$ tar zxf <数据集压缩文件名> -C dataset/
然后需要将datalist目录下的文件全部拷贝到 dataset/
目录下,也就是将其跟数据集放在一起。
$ cp -rf datalist/* dataset/
目前可用的模型有24、25和251
运行本项目之前,请安装必要的Python3版依赖库
本项目开始训练请执行:
$ python3 train_mspeech.py
本项目开始测试请执行:
$ python3 test_mspeech.py
测试之前,请确保代码中填写的模型文件路径存在。
ASRT API服务器启动请执行:
$ python3 asrserver.py
如果要训练和使用模型251,请在代码中 import SpeechModel
的相应位置做修改。
CNN + LSTM/GRU + CTC
其中,输入的音频的最大时间长度为16秒,输出为对应的汉语拼音序列
- 关于下载已经训练好的模型的问题
可以在Github本仓库下releases里面的查看发布的各个版本软件的压缩包里获得完整源程序。
基于概率图的最大熵隐马尔可夫模型
输入为汉语拼音序列,输出为对应的汉字文本
当前,最好的模型在测试集上基本能达到80%的汉语拼音正确率
不过由于目前国际和国内的部分团队能做到98%,所以正确率仍有待于进一步提高
Python的依赖库
- python_speech_features
- TensorFlow
- Keras
- Numpy
- wave
- matplotlib
- math
- Scipy
- h5py
- http
- urllib
-
清华大学THCHS30中文语音数据集
data_thchs30.tgz OpenSLR国内镜像 OpenSLR国外镜像
test-noise.tgz OpenSLR国内镜像 OpenSLR国外镜像
resource.tgz OpenSLR国内镜像 OpenSLR国外镜像
-
Free ST Chinese Mandarin Corpus
ST-CMDS-20170001_1-OS.tar.gz OpenSLR国内镜像 OpenSLR国外镜像
-
AIShell-1 开源版数据集
data_aishell.tgz OpenSLR国内镜像 OpenSLR国外镜像
-
Primewords Chinese Corpus Set 1
primewords_md_2018_set1.tar.gz OpenSLR国内镜像 OpenSLR国外镜像
特别鸣谢!感谢前辈们的公开语音数据集
如果提供的数据集链接无法打开和下载,请点击该链接 OpenSLR
日志链接:进展日志
@ZJUGuoShuai @williamchenwl
@nl8590687 (repo owner)