Skip to content
This repository has been archived by the owner on Sep 5, 2020. It is now read-only.

Latest commit

 

History

History
63 lines (29 loc) · 1.68 KB

42-Day9.md

File metadata and controls

63 lines (29 loc) · 1.68 KB

第九次课小结


[TOC]

NTM 神经图灵机

架构

differentiable neural computers 控制器+储存器

本质

是一个使用外部存储矩阵进行attentive interaction机制的RNN。由于定义的RNN各个部分都是可导的,使得输入训练数据通过机器学习(bp加gd)训练“程序”成为了可能。

问题与前景
  1. spend long time to train a simple task
  2. 更需要探索动物的思维方式(而非计算机的记忆机制)

语音识别(ASR)

数学基础:贝叶斯分析

W = arg max P(W|X)

利用贝叶斯公式转化为声学模型和语言学模型

CTC:时频谱图 - RNN -> 概率分布矩阵 - 去重,合并,得到结果

存在的问题

由于同音词、语调、噪音等障碍,语音识别至今是一个比较困难的问题。其传统技术架构为特征提取-声学模型-词典-语言模型,以评价指标词错误率(word error rate, WER) 来衡量,传统方式的准确率未超过90%。

如果使用 RNN 来处理,则需要首先解决输入(语音)输出(文字)对齐的问题:因为 X 和 Y 都是变长的,无法找到简单的可导映射关系。

解决方法

CTC 折叠:先去掉重复字符,再去掉空白。

CLDNN :结合了卷积网络、LSTM 和 DNN。输入信号进行时域卷积后进行频域卷积,再通过 LSTM 和 DNN 输出。

具体应用

soundai.com 智能语音

课程小项目:声控智能设计

  1. 录制24条语音指令
  2. audioPlot录音文件预处理,生成频谱图
  3. 使用TensorFlow、audionet全连接网络进行训练
  4. 验证之后部署到安卓手机。(android studio)