第九次课小结

[TOC]

NTM 神经图灵机

架构

differentiable neural computers 控制器+储存器

本质

是一个使用外部存储矩阵进行attentive interaction机制的RNN。由于定义的RNN各个部分都是可导的，使得输入训练数据通过机器学习（bp加gd）训练“程序”成为了可能。

问题与前景

spend long time to train a simple task
更需要探索动物的思维方式（而非计算机的记忆机制）

语音识别(ASR)

数学基础：贝叶斯分析

W = arg max P(W|X)

利用贝叶斯公式转化为声学模型和语言学模型

CTC：时频谱图 - RNN -> 概率分布矩阵 - 去重，合并，得到结果

存在的问题

由于同音词、语调、噪音等障碍，语音识别至今是一个比较困难的问题。其传统技术架构为特征提取-声学模型-词典-语言模型，以评价指标词错误率(word error rate, WER) 来衡量，传统方式的准确率未超过90%。

如果使用 RNN 来处理，则需要首先解决输入（语音）输出（文字）对齐的问题：因为 X 和 Y 都是变长的，无法找到简单的可导映射关系。

解决方法

CTC 折叠：先去掉重复字符，再去掉空白。

CLDNN ：结合了卷积网络、LSTM 和 DNN。输入信号进行时域卷积后进行频域卷积，再通过 LSTM 和 DNN 输出。

具体应用

soundai.com 智能语音

课程小项目：声控智能设计

录制24条语音指令
audioPlot录音文件预处理，生成频谱图
使用TensorFlow、audionet全连接网络进行训练
验证之后部署到安卓手机。(android studio)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

42-Day9.md

42-Day9.md

第九次课小结

NTM 神经图灵机

架构

本质

问题与前景

语音识别(ASR)

数学基础：贝叶斯分析

存在的问题

解决方法

具体应用

课程小项目：声控智能设计

Files

42-Day9.md

Latest commit

History

42-Day9.md

File metadata and controls

第九次课小结

NTM 神经图灵机

架构

本质

问题与前景

语音识别(ASR)

数学基础：贝叶斯分析

存在的问题

解决方法

具体应用

课程小项目：声控智能设计