采用DFSMN-CTC-SMBR进行普通话语音识别。 一般一个声学模型包括3个关键部分,分别是:神经网络、声学模型单元、优化目标函数。 本文采用DFSMN-CTC-SMBR,即神经网络是DFSMN,目标函数是CTC与SMBR。声学模型采用的是hybrid Character-Syllable,包括常见的中文字符和音节。 DFSMN之前,经常用的神经网络是LSTM-RNN。 2 DFSMN-...
本发明请求保护一种结合Transformer和CNNDFSMNCTC的中文语音识别方法,该方法包括步骤:S1,将语音信号进行预处理,提取80维的log mel Fbank特征;S2,将提取到的80维Fbank特征用CNN卷积网络进行卷积;S3,将特征输入到DFSMN网络结构中;S4,将CTC loss作为声学模型的损失函数,采用Beam search算法进行预测,使用Adam优化器进行优化...
专利权项:1.一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法,其特征在于,包括以下步骤:S1,输入语音信号,将语音信号进行预处理,结合低帧率LFR,先对语音信号预加重,再通过一个固定的10ms帧位移的25ms汉明窗口进行分析,并利用80个梅尔滤波器组提取80维的取对数后的梅尔滤波器Fbank特征;S2,将提取到的80维Fbank...