1 HMM可以用5个元素来描述 2 HMM的三个主要问题 3 GMM-HMM模型的超参(列出主要的,可能需要通过交叉验证,或建模迭代来优化) 三、GMM-HMM语音识别模型的类型 1 根据训练集是否提供“人工标注的状态序列”,学习算法分为有监督学习和无监督学习。 2 根据语音单位不同,状态集合元素分为音素或子音素。关于音素:英语...
说回声学模型,MFA沿用Kaldi的GMM-HMM声学模型架构,训练声学模型步骤如下: (1)单音Monophone GMM模型先训练,进行第一次对齐; (2)三音Triphone GMM模型,对音素周围context考虑在内去训练,进行第二次对齐; (3)Speaker Adaption,去学习每个说话人的声学特征转换,以便模型更贴合现有数据集。 图:GMM-HMM模型在语音上的...
HMM-GMM(Hidden Markov Model - Gaussian Mixture Model)是语音识别中的经典模型之一。它结合了隐马尔可夫模型(HMM)和高斯混合模型(GMM)的优点,用于建模语音信号的时间序列特性和观测值的概率分布。 原理 隐马尔可夫模型(HMM) 隐马尔可夫模型(HMM, Hidden Markov Model)是一种统计模型,用于描述一个系统通过一系列隐状...
语音识别任务有些特殊,比如语音识别中,标注只是针对整段音频的,而不是针对每一帧;语音识别是针对每个音素都建立一个HMM模型,而不是所有音素用一个HMM模型描述。 当时为了弄懂HMM-GMM,看了不少资料,但感觉都不适合很初级的学习者。于是就萌生了写一个通俗易懂版的HMM-GMM教程,从一个音频实例说起,给大家一个感性...
总结一下,GMM 用于对音素所对应的音频特征分布进行建模,HMM 则用于音素转移和音素对应输出音频特征之间关系的建模。 HMM 即为隐马尔可夫模型(Hidden Markov model,HMM) HMM 脱胎于马尔可夫链,马尔可夫链表示的是一个系统中,从一个状态转移到另一个状态的所有可能性。但因为在实际应用过程中,并不是所有状态都是可...
GMM(高斯混合模型)的概念在于通过多个高斯分布来拟合复杂数据集,解决单一高斯分布无法精确拟合数据的问题。理想情况下,数据可能服从多个高斯分布,每个分布描述数据集中的一部分。一个高斯分布的数学表达式为:\(p(x|\mu,\sigma^2)\),当向量\(x\)时,方差\(\sigma^2\)变为协方差矩阵\(\Sigma\...
各种组合和变化也是层出不穷,而随着深度学习的兴起,使用了接近30年的语音识别声学模型HMM(隐马尔科夫模型)逐渐被DNN(深度神经网络)所替代,模型精度也有了突飞猛进的变化,其中声学模型模型结构经历了从经典的GMM-HMM,到DNN-HMM,再到DNN+CTC的转变,本文列出了其中的常见模型,权当是一篇导读性质的文章,供大家学习时...
HMM-GMM架构 模型自适应:由于各地口音、采集设备、环境噪声等音素的差异,已训练过的GMM-HMM很可能和新领域的测试数据不匹配,导致识别效果变差,需要做自适应训练。 MAP(最大后验概率估计):算法本质是重新训练一次,并且平衡原有模型参数和自适应数据的估计。
基于HMM的声学模型主要包含的信息是:状态的定义、各状态的观察概率分布,本文为GMM,因此声学模型也叫GMM-HMM模型。其他的如:使用神经网络对HMM的观察概率分布建模的被称为NN-HMM模型。HMM状态的物理意义可以认为是:音素的发声状态,习惯上分为“初始态”、“稳定态”、“结束态”,因此可以用三个状态...
一,GMM基本概念: GMM模型的想法,就是想通过多个高斯分布去拟合一个高斯分布无法拟合的数据。如下图所示,如果用一个高斯分布的参数去建模这批数据,那最终得到的高斯分布就是如图一。虽然高斯分布的均值和方差是有这批数据计算得到,原则上,在均值附近样本出现的概率应该是最大的,即椭圆形的中心应该有很多样本点,但是...