通过在Kaldi上开发基准实验,团队对AIDATATANG_1505ZH数据集的品质进行了严格的验证。实验中,团队对比了目前与其同规模中文语音数据集的语音识别效果,发现AIDATATANG_1505ZH数据集在识别准确率和可靠性方面具有显著优势。这一实验结果充分证明了AIDATATANG_1505ZH数据集的高品质和实用性。此外,AIDATATANG_1505ZH数据集的开...
下图展示了基于该aidatatang_1505zh数据集进行的GMM-HMM模型(mono、tri1、tri2、tri3)训练及Chain-TDNN-HMM模型训练后的字错误率(CER)结果。 由结果可知,DNN-HMM模型训练的效果确实比GMM-HMM模型训练的效果准确。 继数据开源之后,数据堂决定将上述语音识别模型开源,以便更多研究人员对自有数据进行中文语音识别的研究...
最大规模开源中文语料库 — aidatatang_1505zh及其语音识别基准实验详解说在前面AI正切实影响着社会生产生活的各个方面,目前人工智能产品正在走向实用化、多样化,人工智能应用也正在快速拓展助力传统行业转型升级。算法、算力、数据是驱动人工智能产业快速崛起的三大因素,其中,数据是人工智能的基石,只有拥有大量的数据资源,...