3 GMM-HMM模型的超参(列出主要的,可能需要通过交叉验证,或建模迭代来优化) 三、GMM-HMM语音识别模型的类型 1 根据训练集是否提供“人工标注的状态序列”,学习算法分为有监督学习和无监督学习。 2 根据语音单位不同,状态集合元素分为音素或子音素。关于音素:英语的音素为各种清音、辅音;中文的音素为各种声母和韵母...
GMM是一种包含隐变量的模型。在GMM产生样本的过程中,首先根据 ck 随机选择一个高斯分布,然后根据第 k 个高斯分布的概率密度 N(x|μk,Σk) 产生样本 x 。由于在训练过程中仅知道 {x1,x2...xN} ,而不知道每个样本来源于哪个高斯分布,因而存在隐变量 γ(n,k) ,其表示第 n 个样本来源于第 k 个高斯分...
一个状态对应一个gmm模型,一个状态对应若干帧数据,也就是若干帧数据对应一个gmm模型。一开始我们不知道哪些帧对应哪个状态,所以gmm模型的输入数据就无从得知。现在初始化后,状态1对应前6帧数据,我们就拿这六帧数据来计算状态1的gmm模型(单高斯,只有一个分量的gmm),得到初始均值 和方差 。 (完美的假想:假设我们...
假设下面为一段5s的语音,语音内容为 : 下一个路口 (标注:x ia ii i g e l u k ou),虽然已经给出这段语音的发音,但是对于哪些帧对应哪些音素(三个状态)的发音却是未知的,声学模型就是为了使声音信号对齐对应的音素(或音节),在这个过程中使用GMM对帧与状态之间的关系进行建模,下面介绍具体的细节: (1)第...
各种组合和变化也是层出不穷,而随着深度学习的兴起,使用了接近30年的语音识别声学模型HMM(隐马尔科夫模型)逐渐被DNN(深度神经网络)所替代,模型精度也有了突飞猛进的变化,其中声学模型模型结构经历了从经典的GMM-HMM,到DNN-HMM,再到DNN+CTC的转变,本文列出了其中的常见模型,权当是一篇导读性质的文章,供大家学习时...
GMM-HMM模型中的参数数量取决于模型的结构和设置。一般来说,GMM-HMM模型包含以下几个部分的参数: 高斯混合模型(GMM)参数:GMM用于对观测数据进行建模,通常由多个高斯分布组成。每个高斯分布都有均值向量和协方差矩阵作为参数。如果GMM中有K个高斯分布,那么GMM参数的数量就是2K(每个高斯分布的均值向量和协方差矩阵)。
模型构建: 初始化HMM模型,设置状态数和混合高斯数。 模型训练: 使用Baum-Welch算法训练HMM-GMM模型。 解码: 使用Viterbi算法结合语言模型进行解码。 补充 KenLM语言模型 KenLM 是一个用于快速语言模型训练和查询的工具,特别适用于自然语言处理和语音识别任务。 1. 安装 KenLM 安装依赖项: 在安装 KenLM 之前,需要确保...
在GMM-HMMs的传统语音识别中,GMM决定了隐马尔科夫模型中状态与输入语音帧之间的符合情况,和HMM用来处理在时间轴上的声学可变性(自跳转)。训练HMM需要用到Forward-backward算法(Baum-Welch算法),本质上是一种EM算法。 图为部分的状态-时间篱笆网络,为方便理解下面前向、后向概率。
模型自适应:由于各地口音、采集设备、环境噪声等音素的差异,已训练过的GMM-HMM很可能和新领域的测试数据不匹配,导致识别效果变差,需要做自适应训练。 MAP(最大后验概率估计):算法本质是重新训练一次,并且平衡原有模型参数和自适应数据的估计。 MLLR(最大似然线性回归):算法核心思想是将原模型的参数进行线性变换后再...
按照上图的说法,语音识别是由语言模型和声学模型构成的。下面我就根据图上的流程说下。 一 特征提取 现在主流的特征是mfcc。具体mfcc的步骤,在我前面转的博客里也有。地址:语音信号处理之(四)梅尔频率倒谱系数(MFCC)。这里我引有知乎里的一个人的说法: ...