data_aishell/wav 存放wav的压缩文件,解压后会得到 train,dev,test 数据用于训练/开发/测试: cd data_aishell for file in wav/*;do tar -xvf $file; done 1 2 3 4 2.2 标注文件 data_aishell/transcript 存放每个wav的中文标注, 这里已经是分词后的结果,因为一般asr的输出类型都是词序列,对于未分词的原始...
AISHELL-2023A-EVAL 多点位高质量家居语控评测数据集 DATA Information - Total Time : 3.5 Hours - Sampling Rate : 48kHz - Sample Format : 16bit - Environment : Indoor - Speech Data Type : wav 语音识别实验评测 Speech Recognition Evaluation ...
The AISHELL-5 dataset contains more than 100 hours of speech data, divided into 94 hours of training data(Train), 3.3 hours of validation data (Dev), and two test sets(Eval1 and Eval2), with durations of 3.3 and 3.58 hours. Each dataset includes far-field audio from 4 channels, wit...
You can cite the data using the following BibTeX entry: @inproceedings{aishell_2017, title={AIShell-1: An Open-Source Mandarin Speech Corpus and A Speech Recognition baseline}, author={Hui Bu, Jiayu Du, Xingyu Na, Bengu Wu, Hao Zheng}, booktitle={Oriental COCOSDA 2017}, pages={Submitted...
针对你遇到的错误 "error: local/aishell_data_prep.sh requires two directory arguments",这里是详细的解答步骤: 1. 理解错误信息 错误信息指出 local/aishell_data_prep.sh 脚本需要两个目录参数。这意味着在运行脚本时,你需要提供两个目录的路径作为输入参数。 2. 检查脚本使用说明或文档 根据提供的参考信息,这...
"<SPOKEN_NOISE>" data/local/lang data/lang || exit 1; utils/prepare_lang.sh 对 data/dict 进行了处理,得到data/lang,目的是创建L.fst:音素词典(Phonetic Dictionary or Lexicon)模型,phone symbols作为输入,word symbols作为输出,其中fst是Finite State Transducers(有限状态转换器)的缩写。选项“position_dep...
1 pds用 y yearyyfan 2枚 CC0 语音识别 0 8 2024-11-12 详情 相关项目 评论(0) 创建项目 文件列表 data_aishell.tgz data_aishell.tgz (14861.02M) 下载 File Name Size Update Time data_aishell/wav/S0724.tar.gz 42977549 2017-06-13 02:08:54 data_aishell/wav/S0725.tar.gz 51900074 2017...
AISHELL-2 data: - Sampling Rate : 16kHz - Sample Format : 16bit - Environment : Indoor - Speech Data Type : PCM - Channel Number : 1 - Recording Equipment : iOS - Time : 1000 hours of speech data (around 1 million utterances) ...
八、AISHELL特定调整 参照AISHELL.v1的方式,调整Mfcc和vad参数,使用conf文件进行修改。 使用split_data_enroll_eval.py脚本将测试集划分成注册集和验证集。 使用produce_trials.py脚本计算trials。 针对训练集、注册集和验证集,提取各自Ivector特征,评估使用清华大学的方法,最终结果在exp/extractor下。
Add a new resultLink an existing benchmark TrendTaskDataset VariantBest ModelPaperCode Speech Recognition AISHELL-1 FireRedASR-AED Papers Dataset Loaders Edit AddRemove No data loaders found. You cansubmit your data loader here. Tasks Edit AISHELL-3...