隐马尔可夫模型(HMM)是一种统计模型,用于描述一个隐藏的马尔可夫过程产生的观测序列的概率分布。在语音识别中,HMM主要用于建模声学模型,即描述语音信号的时间序列结构。一个HMM主要由状态转移概率、发射概率和初始状态概率三部分组成。 状态转移概率:表示状态之间的转移概率。在语音识别中,状态可以看作是音素、音节等语音...
在HMM框架下,我们假设状态序列是一个马尔可夫过程。为了推导出HMM,我简单地用带有发射模型的马尔可夫链来指定生成观察概率。或者我们可以把它看作是一个混合模型,其中的状态不再是独立产生的,而是一个马尔可夫过程。 图(左)显示了一个跨时间的HMM的结构。图(右)HMM用马尔可夫链的状态转移框架描述天气。在该图中,...
在语音识别中,每个语音片段被看作是一个由一系列隐含状态组成的序列,HMM模型用来描述这些状态之间的转移以及每个状态对应的观测值的概率分布。 2.高斯混合模型(GMM):GMM是一种用于建模连续观测值的概率分布的模型。在语音识别中,每个HMM的观测值被建模为由多个高斯分布组成的混合模型。每个高斯分布表示特定状态下的...
用于语音识别的最常见HMM架构具有由三种隐含状态组成的音素模型。你可以理解为一个音素在发出时有三个不同的阶段 - 开始、中间和结束。在每个阶段,它听起来都有点不同。每个状态都由GMM建模以确定该状态下观察的可能性,而我们的观察的可见状态就是帧。 图:某音素的GMM-HMM模型 注意,前面其实有提到,一般音素和帧...
三 语言模型 语言模型,我就引用@zouxy09的博客。 语言模型是用来计算一个句子出现概率的概率模型。它主要用于决定哪个词序列的可能性更大,或者在出现了几个词的情况下预测下一个即将出现的词语的内容。换一个说法说,语言模型是用来约束单词搜索的。它定义了哪些词能跟在上一个已经识别的词的后面(匹配是一个顺序的...
1. 什么是Hidden Markov Model? HMM要解决的三个问题: 1) Likelihood 2) Decoding 3) Training 2. GMM是神马?怎样用GMM求某一音素(phoneme)的概率? 3. GMM+HMM大法解决语音识别 3.1 识别 3.2 训练 3.2.1 Training the params of GMM 3.2.2 Training the params of HMM ...
在GMM-HMMs的传统语音识别中,GMM决定了隐马尔科夫模型中状态与输入语音帧之间的符合情况,和HMM用来处理在时间轴上的声学可变性(自跳转)。训练HMM需要用到Forward-backward算法(Baum-Welch算法),本质上是一种EM算法。 图为部分的状态-时间篱笆网络,为方便理解下面前向、后向概率。
HMM怎么用呢?它里面有三大问题。 第一个问题叫做求值问题。就像之前我们做孤立词识别的时候我们来计算,计算的是给了一个模型求它们之间的距离,或者求它们之间的概率密度。那在HMM里面我们同样也做这间事情。就是求给定模型之后语音的概率。 那刚刚我们说HMM模型它本身定义的是什么呢?是给了模型之后语音和对齐方式的...
3. GMM+HMM大法解决语音识别 我们获得observation是语音waveform, 以下是一个词识别全过程: 1)将waveform切成等长frames,对每个frame提取特征(e.g. MFCC), 2)对每个frame的特征跑GMM,得到每个frame(o_i)属于每个状态的概率b_state(o_i) fig6. complete process from speech frames to a state sequence ...
自动语音识别系统并非单一算法,而是复杂框架。其中包含声学模型与语言模型等关键部分。隐马尔可夫模型(HMM)在语音识别领域依然重要。声学模型定义语言基本单位音素,如"BRYAN"可视为"B, R, AY, AX, N"。单音素模式使用约50个HMM状态表示音素,三音素模式则为每个音素设置三个状态,根据上下文,BRYAN的R...