采用DFSMN-CTC-SMBR进行普通话语音识别。 一般一个声学模型包括3个关键部分,分别是:神经网络、声学模型单元、优化目标函数。 本文采用DFSMN-CTC-SMBR,即神经网络是DFSMN,目标函数是CTC与SMBR。声学模型采用的是hybrid Character-Syllable,包括常见的中文字符和音节。 DFSMN之前,经常用的神经网络是LSTM-RNN。 2 DFSMN-...