网上搜罗最多的是MFA(suibian:Montreal Forced Aligner使用教程(中文语音文本对齐)),教程很多,但是问题百出,记录实践过程。 背景 ASR服务出现音频切分不准,计划使用线上数据进行pyannote VAD调参。但是目前没有VAD数据集标注,计划用线上数据的ASR测试集,转化为VAD测试集,即,每条语音,需要有效语音的起止时间点。音频文...
使用conda安装蒙特利尔强制对齐器(MFA)版本2.1.7,尝试了几个版本后,终于成功生成TextGrid文件。读取TextGrid,获取每条语音的有效语音起止时间点,实现目录对齐。若对齐数量不对,可以调整beam参数。最后,使用Praat软件打开TextGrid文件,同时打开.wav和.textGrid文件,以便直观查看结果。需要注意的是,利用G...
知乎,中文互联网高质量的问答社区和创作者聚集的原创内容平台,于 2011 年 1 月正式上线,以「让人们更好的分享知识、经验和见解,找到自己的解答」为品牌使命。知乎凭借认真、专业、友善的社区氛围、独特的产品机制以及结构化和易获得的优质内容,聚集了中文互联网科技、