而随着深度学习的兴起,使用了接近30年的语音识别声学模型HMM(隐马尔科夫模型)逐渐被DNN(深度神经网络)所替代,模型精度也有了突飞猛进的变化,其中声学模型模型结构经历了从经典的GMM-HMM,到DNN-HMM,再到DNN+CTC的转变,本文列出了其中的常见模型,权当是一篇导读性质的文章,供大家学习时参考。
一、DNN-HMM GMM-HMM 建模能力有限,无法准确的表征语音内部复杂的结构,所以识别率低;用DNN代替GMM来进行观察状态概率的输出,实现DNN-HMM声学模型框架,大大提高了识别率。 1、区别:GMM是生成模型,采用无监督学习,DNN是判别模型,采用有监督学习 HMM使用的特征是 MFCC ,DNN-HMM使用的特征是 FBank 2、DNN-HMM步骤:...
1 Introduction语音识别(ASR)中隐马尔可夫模型(HMM)和深度神经网络-隐马尔可夫(DNN-HMM)混合模型 2 Problem Statement模型输入:语音信号(音频) X 文字内容: Y 模型输出:文字内容 \hat{Y} 使得 \hat{Y} = \matho…
假设整个系统有如上图的特征向量和三个状态,我们就可以建立一个输出为3的神经网络,这里GMM就替换成了DNN。 DNN-HMM语音识别系统 建模训练 原始语音经过特征提取以后得到相应的13维的频谱特征(Fbank or MFCC),频谱特征经过神经网络DNN做一个状态上的分类模型,对于任何一段语音的训练数据来讲,我们有语音和其对应的lab...
神经网络-隐马尔科夫模型(DNN-HMM)利用DNN的特征学习能力和HMM的序列化建模能力进行语音识别任务的处理,在很多大规模任务中,其性能远优于传统的GMM-HMM混合模型。DNN:特征的学习能力,估计观察特征的概率,预测状态的后验概率。HMM:描述语音信号的序列变化,预测后面的序列。DNN-HMM语音识别声学信号使用HMM框架建模,每个...
对于每一个音素HMM,它通常由5个状态组成,其中第一个和最后一个状态没有实际意义,中间三个状态分别代表着音素开始阶段、音素稳定阶段和音素结束阶段,如下图所示。 3. 学习算法 以上展示了在训练好GMM-HMM模型之后,如何对语音信号进行识别,那么GMM-HMM模型的训练过程又是怎么样的呢?
DNN是判别模型,因为它直接对给定观测值后状态的分布 P(X|Y) 进行建模。在 HMM-DNN 这个框架中,DNN...
DNN-HMM 模型的主要训练步骤如下:首先训练一个状态共享的三音素 GMM-HMM 汉语识别系统,使用决策树来决定如何共享状态。设训练完成的系统为 gmm-hmm。 用步骤 1 得到的 gmm-hmm 初始化一个新隐马尔可夫模型(包括转移概率,观测概率,隐马尔可夫模型的状态),并生成一个 DNN-HMM 模型,设该模型为 dnn-hmm1。 预...
稍微说明一下:最下面的observation就是我们提取的特征。gmm-hmm就是把我们的特征用混合高斯模型区模拟,然后把均值和方差输入到hmm的模型里。 此外,dnn-hmm的模型图: 最后是dbn-hmm: 希望我寒假过来可以很好的解释这三个图,如果有人可以解释这三个图,欢迎和我联系,与我交流。谢谢…… ...
基于DNN HMM的语音识别声学模型结构如下图所示,与传统的基于GMM HMM的声学模型相比,唯一不同点在于用DNN替换了GMM来对输入语音信号的观察概率进行建模。DNN与GMM相比具有如下优点: DNN不需要对声学特征所服从的分布进行假设; DNN的输入可以采用连续的拼接帧,因而可以更