将aishell1 的数据格式,处理为aishell2上面的样式:data_parse.py 现在数据处理完毕,可以开始试运行与解析代码了; 我在GPU17上面试运行,数据目录/data/liuchengwei/speech/aishell2-data 其中, fake_aishell_v4为咱们自己aishell1运行的数据; fake_aishell2_v1为我运行data_parse.py处理完fake_aishell_v4得到的; ...
命令:arpa2fst 将ARPA格式语言模型转换为FST 用法:arpa2fst [opts] 例如:arpa2fst --disambig-symbol=#0 --read-symbol-table=data/lang/words.txt lm/input.arpa G.fst #本shell运行的是:arpa2fst --disambig-symbol=#0 --read-symbol-table=$out_dir/words.txt - $out_dir/G.fst 4)line no...
希尔贝壳中文普通话语音数据库AISHELL-2的语音时长为1000小时,其中718小时来自AISHELL-ASR0009-[ZH-CN],282小时来自AISHELL-ASR0010-[ZH-CN]。录音文本涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等12个领域。录制过程在安静室内环境中, 同时使用3种不同设备: 高保真麦克风(44.1kHz,16bit);Android系统...
【Kaldi技术交流会:AISHELL-2上线,希尔贝壳开源了1000小时语音数据】AISHELL Foundation和北京希尔贝壳科技有限公司宣布开源数据规模达1000小时的目前全球最大中文开源数据库AISHELL-2,并配套研发了更优秀的系统级recipe,AISHELL-2还配备了一套evaluation数据集,TEST&DEV数据包含了iOS、Android、高保真Mic三种设备,能使实验...
北京希尔贝壳科技有限公司(AISHELL)在Kaldi平台上开源178小时中文普通话数据库(AISHELL-1),同时以aishell命名的recipe项目merge到kaldi里。 数据下载地址: http://www.openslr.org/33/ recipe地址: https://github.com/kaldi-asr/kaldi/tree/master/egs/aishell/s5 ...
data/train/utt2spk 格式:<utterance ID><speaker ID> utt2spk.png data/train/spk2utt 感觉这个文件没啥用,每个说话人对应的句子数目都没标全 utils/prepare_lang.sh purpose This script adds word-position-dependent phones and constructs a host of other derived files ...
如今AISHELL-2开源1000小时数据库和配套中文系统的recipe,对于Kaldi社区、学术界、工业界来讲都具有一种里程碑式的意义。Kaldi是一个非常强大的语音识别工具库,主要由“灵魂人物”Daniel Povey开发和维护,目前支持GMM-HMM、SGMM-HMM、DNN-HMM等多种语音识别的模型的训练和预测。其中DNN-HMM中的神经网络还可以由配置...
write_utt2num_frames data data/train/fbank & data/test/fbank data/train/fbank/feats.scp feats.jpg data/train/fbank/data mfcc_data.png 注:可以看出此文件夹下保存了提取的mfcc。文件是二进制存储格式,可以通过命令查看。 copy-feats ark:raw_mfcc_train.1.ark ark,t:-|head ...
使用[aishell2_u2pp_conformer_exp.tar.gz]里的训练权重进行onnx格式模型转换,可以转换成功,但是解码时没有结果,同样转成libtorch模型也不行。 wenet版本:v3.1.0 python版本:3.10 转换命令: exp=/home/ubuntu/wenet/exp/aishell2_u2pp_conformer_exp onnx_dir=models/onnx python -m wenet.bin.export_onnx_...
data_词典文件 根据原始训练集(wav.scp和 text)和data/local/dict里的词典文件转成最终可用于后续训练的data/train/wav.scp /text(word-segmented)/utt2spk/spk2utt config data_可执行的训练数据 注:train,test和dev同理 purpose This script adds word-position-dependent phones and ...