GMM是一种包含隐变量的模型。在GMM产生样本的过程中,首先根据 ck 随机选择一个高斯分布,然后根据第 k 个高斯分布的概率密度 N(x|μk,Σk) 产生样本 x 。由于在训练过程中仅知道 {x1,x2...xN} ,而不知道每个样本来源于哪个高斯分布,因而存在隐变量 γ(n,k) ,其表示第 n 个样本来源于第 k 个高斯分...
G2P模型会自动根据正字法将语料库中的单词转换为最可能的语音发音。相比于手动往发音字典里添加缺失字转音的映射关系,G2P的优点是能处理语料数据集之外的单词。通过下载预训练好的G2P模型,然后输入语料库中的转写文件,直接让G2P模型生成出新的发音字典(命令:mfa model download g2p和mfa g2p)。或者你也能...
一个状态对应一个gmm模型,一个状态对应若干帧数据,也就是若干帧数据对应一个gmm模型。一开始我们不知道哪些帧对应哪个状态,所以gmm模型的输入数据就无从得知。现在初始化后,状态1对应前6帧数据,我们就拿这六帧数据来计算状态1的gmm模型(单高斯,只有一个分量的gmm),得到初始均值 和方差 。 (完美的假想:假设我们...
通过前向后向算法自动学习语音特征中的模型边界,这种准则与用于时序建模的神经网络(如LSTM)的结合可以直接用于端到端的模型建模,同时,CTC准则引入了blank类别,用于吸收发音单元内部的混淆性,更加突出模型与其他模型之间的差异性,因此CTC具有非常明显的尖峰效果,如图中所示。
最大似然估计:使用概率模型,找到模型中的参数能够以较高概率产生观察数据;简单来说就是给定一组观察数据评估模型参数的方法。 比如:要统计全国成年人的身高分布情况,测量全部人口的身高耗费人力物力,假设身高服从正态分布,抽取1000人(抽取样本太少估计出的参数会不太准确),根据这1000人的身高分布估计全国人口的身高分...
GMM-HMM模型中的参数数量取决于模型的结构和设置。一般来说,GMM-HMM模型包含以下几个部分的参数: 高斯混合模型(GMM)参数:GMM用于对观测数据进行建模,通常由多个高斯分布组成。每个高斯分布都有均值向量和协方差矩阵作为参数。如果GMM中有K个高斯分布,那么GMM参数的数量就是2K(每个高斯分布的均值向量和协方差矩阵)。
模型构建: 初始化HMM模型,设置状态数和混合高斯数。 模型训练: 使用Baum-Welch算法训练HMM-GMM模型。 解码: 使用Viterbi算法结合语言模型进行解码。 补充 KenLM语言模型 KenLM 是一个用于快速语言模型训练和查询的工具,特别适用于自然语言处理和语音识别任务。 1. 安装 KenLM 安装依赖项: 在安装 KenLM 之前,需要确保...
在GMM-HMMs的传统语音识别中,GMM决定了隐马尔科夫模型中状态与输入语音帧之间的符合情况,和HMM用来处理在时间轴上的声学可变性(自跳转)。训练HMM需要用到Forward-backward算法(Baum-Welch算法),本质上是一种EM算法。 图为部分的状态-时间篱笆网络,为方便理解下面前向、后向概率。
模型自适应:由于各地口音、采集设备、环境噪声等音素的差异,已训练过的GMM-HMM很可能和新领域的测试数据不匹配,导致识别效果变差,需要做自适应训练。 MAP(最大后验概率估计):算法本质是重新训练一次,并且平衡原有模型参数和自适应数据的估计。 MLLR(最大似然线性回归):算法核心思想是将原模型的参数进行线性变换后再...
按照上图的说法,语音识别是由语言模型和声学模型构成的。下面我就根据图上的流程说下。 一 特征提取 现在主流的特征是mfcc。具体mfcc的步骤,在我前面转的博客里也有。地址:语音信号处理之(四)梅尔频率倒谱系数(MFCC)。这里我引有知乎里的一个人的说法: ...