AISHELL-2采用iOS系统手机录制的语音数据。1991名来自中国不同口音区域的发言人参与录制。经过专业语音校对人员转写标注,并通过严格质量检验,此数据库文本正确率在96%以上。(支持学术研究,未经允许禁止商用。) AISHELL-2 is a 1000-hour Mandarin Chinese Speech Corpus. 718 hours are from AISHELL-ASR0009-[ZH-CN...
我这里数据目录为/data/liuchengwei/speech/aishell2-data 其中, TEST&DEV DATA.zip为aishell2的样例数据压缩包; 二、试运行与代码解析 1.进入aishell2,把cmd.sh修改: export train_cmd="queue.pl --mem 2G" export decode_cmd="queue.pl --mem 4G" export mkgraph_cmd="queue.pl --mem 8G" to expor...
AISHELL-2还配备了一套evaluation数据集,TEST&DEV数据包含了iOS、Android、高保真Mic三种设备,使实验测试更科学和多样性。 1000小时的数据详情: recipe地址: https://github.com/kaldi-asr/kaldi/tree/master/egs/aishell2 AISHELL-2实验的训练集,开发集,测试集构成。具体分配如下: AISHELL-2 data: - Sampling Rate...
命令:arpa2fst 将ARPA格式语言模型转换为FST 用法:arpa2fst [opts] 例如:arpa2fst --disambig-symbol=#0 --read-symbol-table=data/lang/words.txt lm/input.arpa G.fst #本shell运行的是:arpa2fst --disambig-symbol=#0 --read-symbol-table=$out_dir/words.txt - $out_dir/G.fst 4)line no...
AISHELL-2开放出来1000小时的语音数据库对于一家数据创业公司而言关乎利益生死。在接受猎云网采访时希尔贝壳创始人兼CEO卜辉对此表示:“我门其实是想做语音行业的革命者,从数据做革命,从技术做革命,革命必有牺牲。我相信这次数据开源之后市面上也有很多公司跟着我们做数据的开源,对于推动整个行业的技术进步和产业生态...
使用[aishell2_u2pp_conformer_exp.tar.gz]里的训练权重进行onnx格式模型转换,可以转换成功,但是解码时没有结果,同样转成libtorch模型也不行。 wenet版本:v3.1.0 python版本:3.10 转换命令: exp=/home/ubuntu/wenet/exp/aishell2_u2pp_conformer_exp onnx_dir=models/onnx python -m wenet.bin.export_onnx_...
【Kaldi技术交流会:AISHELL-2上线,希尔贝壳开源了1000小时语音数据】AISHELL Foundation和北京希尔贝壳科技有限公司宣布开源数据规模达1000小时的目前全球最大中文开源数据库AISHELL-2,并配套研发了更优秀的系统级recipe,AISHELL-2还配备了一套evaluation数据集,TEST&DEV数据包含了iOS、Android、高保真Mic三种设备,能使实验...
data_词典文件 根据原始训练集(wav.scp和 text)和data/local/dict里的词典文件转成最终可用于后续训练的data/train/wav.scp /text(word-segmented)/utt2spk/spk2utt config data_可执行的训练数据 注:train,test和dev同理 purpose This script adds word-position-dependent phones and ...
#信息技术WeNet 专区语音识别开源数据aishell希尔贝壳wenet 希尔贝壳和出门问问合作,在 WeNet 中更新了对 AISHELL-2 数据集的支持,开放数据准备、训练和解码测试和部署等流程,并开放基于 AISHELL-2 的预训练模型。 加关注 语音之家 助力AI语音开发者的社区!http://www.speechhome.com/...
MockingBird aishell2 aidatang_200zh 哪个好?实测在本项目中aidatatang 有优势,估计是说话人的特征覆盖...