[TOC]
differentiable neural computers 控制器+储存器
是一个使用外部存储矩阵进行attentive interaction机制的RNN。由于定义的RNN各个部分都是可导的,使得输入训练数据通过机器学习(bp加gd)训练“程序”成为了可能。
- spend long time to train a simple task
- 更需要探索动物的思维方式(而非计算机的记忆机制)
W = arg max P(W|X)
利用贝叶斯公式转化为声学模型和语言学模型
CTC:时频谱图 - RNN -> 概率分布矩阵 - 去重,合并,得到结果
由于同音词、语调、噪音等障碍,语音识别至今是一个比较困难的问题。其传统技术架构为特征提取-声学模型-词典-语言模型,以评价指标词错误率(word error rate, WER) 来衡量,传统方式的准确率未超过90%。
如果使用 RNN 来处理,则需要首先解决输入(语音)输出(文字)对齐的问题:因为 X 和 Y 都是变长的,无法找到简单的可导映射关系。
CTC 折叠:先去掉重复字符,再去掉空白。
CLDNN :结合了卷积网络、LSTM 和 DNN。输入信号进行时域卷积后进行频域卷积,再通过 LSTM 和 DNN 输出。
soundai.com 智能语音
- 录制24条语音指令
- audioPlot录音文件预处理,生成频谱图
- 使用TensorFlow、audionet全连接网络进行训练
- 验证之后部署到安卓手机。(android studio)