ASR CTC Model

基于连接时序分类(Connectionist Temporal Classification, CTC)实现端到端学习方法的中文语音识别模型，声学模型部分使用BiGRU和WaveNet构建

训练数据集 THCHS-30

THCHS-30 是清华大学语音与语言技术中心(CSLT)发布的开放式中文语音数据库
该数据集在安静的办公室环境下通过单个碳粒麦克风录取，总时长超过 30 个⼩时
共 13388 个文件，采样频率 16kHz，采样大小 16bits

本项目使用了数据集data文件夹下的所有语音数据进行训练，将该文件夹解压到项目根目录下即可

下载地址：http://www.openslr.org/18/

1.data_handle.ipynb 语音数据预处理，使用MFCC构建音频特征数据
2.model_bigru.py和2.model_wavenet.py
双向GRU和WaveNet声学模型构建，CTC模型构建及训练
可在run/下执行train_2.sh后台运行模型训练，在run.log中可查看训练过程
3.predict.ipynb 模型预测，使用CTC解码函数预测模型输出，默认为贪婪法(greedy)
4.diagrams.ipynb 模型训练过程图，绘制CTC Loss曲线
5.wer.ipynb 模型评价指标，计算词错率(WER)及实时率(RTF)，默认在无GPU加速下测试

可以参见另外一个Project: 中文语音识别实验室

Name		Name	Last commit message	Last commit date
Latest commit History 20 Commits
run		run
.gitattributes		.gitattributes
.gitignore		.gitignore
1.data_handle.ipynb		1.data_handle.ipynb
2.model_bigru.py		2.model_bigru.py
3.predict.ipynb		3.predict.ipynb
4.diagrams.ipynb		4.diagrams.ipynb
5.wer.ipynb		5.wer.ipynb
LICENSE		LICENSE
readme.md		readme.md