而随着深度学习的兴起,使用了接近30年的语音识别声学模型HMM(隐马尔科夫模型)逐渐被DNN(深度神经网络)所替代,模型精度也有了突飞猛进的变化,其中声学模型模型结构经历了从经典的GMM-HMM,到DNN-HMM,再到DNN+CTC的转变,本文列出了其中的常见模型,权当是一篇导读性质的文章,供大家学习时参考。
一、DNN-HMM GMM-HMM建模能力有限,无法准确的表征语音内部复杂的结构,所以识别率低;用DNN代替GMM来进行观察状态概率的输出,实现DNN-HMM声学模型框架,大大提高了识别率。 1、区别:GMM是生成模型,采用无监督学习,DNN是判别模型,采用有监督学习 HMM使用的特征是MFCC,DNN-HMM使用的特征是FBank 2、DNN-HMM步骤: (1)...
DNN 是判别模型,因为它直接对给定观测值后状态的分布 P(X|Y) 进行建模。在 HMM-DNN 这个框架中,D...
而随着深度学习的兴起,使用了接近30年的语音识别声学模型HMM(隐马尔科夫模型)逐渐被DNN(深度神经网络)所替代,模型精度也有了突飞猛进的变化,其中声学模型模型结构经历了从经典的GMM-HMM,到DNN-HMM,再到DNN+CTC的转变,本文列出了其中的常见模型,权当是一篇导读性质的文章,供大家学习时参考。
1. DNN-HMM语音识别系统 2. 深度神经网络 前馈神经网络FNN 卷积神经网络CNN CNN TDNN 循环神经网络RNN LSTM 混合神经网络 3. 总结 4. 作业代码 1. DNN-HMM语音识别系统 DNN-HMM语音识别系统的训练流程是在我们上一节所学的GMM-HMM语音识别系统的基础上,加上了对齐和DNN训练的方式。其流程图如下图所示:...
基于DNN-HMM的语音识别声学模型结构如下图所示,与传统的基于GMM-HMM的声学模型相比,唯一不同点在于用DNN替换了GMM来对输入语音信号的观察概率进行建模。DNN与GMM相比具有如下优点: DNN不需要对声学特征所服从的分布进行假设; DNN的输入可以采用连续的拼接帧,因而可以更好地利用上下文的信息; ...
DNN-HMM不需要对声学特征所服从的分布进行假设,使用的特征是FBank,这个特征保持着相关性。 DNN的输入可以采用连续的拼接帧,因而可以更好地利用上下文的信息。 GMM是生成模型,采用无监督学习,DNN是判别模型,采用有监督学习。 DNN输出向量的维度对应HMM中状态的个数,通常每一维输出对应一个绑定的triphone状态。
Class 6 基于DNN-HMM的语音识别系统 GMM-HMM语音识别系统 建模训练 对于每一个语音序列先进行特征提取,得到每一个特征序列,再通过HMM-GMM建模。 对于每个状态有一个GMM模型,对于每个词有一个HMM模型,当一段语音输入后,根据Viterbi算法得到一个序列在GMM-HMM上的概率,然后通过Viterbi回溯得到每帧属于HMM的哪个状态(...
从HMM指向 GMM或DNN的箭头是指,HMM的某个状态的观察状态概率由某一个GMM或DNN的某一个输出节点决 定;两者最主要的差别是利用了 DNN 代替了 GMM 实现了观察状态概率输出;后验概率可以看作是监督 学习中,根据观察值去求状态值,而DNN是有根据观察值去逆向 的过程,属于监督学习;另外经过 softmax输出,就能得到后...
从GMM-HMM到DNN-HMM GMM-HMM 1. 语音识别总体框架 首先,如下图所示是一个常见的语音识别框架图,语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。这里我们要探讨的GMM-HMM模型属于其中的声学模型。