本文提出了一种基于蒸馏BERT模型的统一普通话TTS前端设计,旨在解决这一问题。 一、引言 传统的TTS系统通常采用基于规则或统计的方法来处理多音字问题,但这些方法往往难以覆盖所有情况,导致准确率不高。近年来,深度学习技术在NLP领域取得了巨大的成功,BERT模型作为其中的佼佼者,被广泛应用于各种NLP任务中。本文提出了一种...
我们建议使用一个基本的发言人TTS模型来控制风格参数和语言,并使用一个音色转换器来体现参考音色到生成的语音。(任务解耦) 2.2、Model Structure OpenVoice的两个主要组件是基本扬声器TTS模型和音色转换器。基本说话者TTS模型是单说话者或多说话者模型,其允许控制风格参数(例如,情感、重音、节奏、停顿和语调)、重音和语...
若用高质量语音数据,微调出来声音质量、推理速度、基本满足商业要求。 相比于gptsovits、fish-speech等新式TTS模型,有几个优势:1、由于模型小,因此合成速度快。做成接口以后,速度基本满足商业对话要求。2、经过微调后,音色稳定。 Fishspeech等模型,随机因素强,音色可能偏离,甚至发出没输入过的文本的声音。也有缺点:1、...
诸公可知目前最牛逼的TTS免费开源项目是哪一个?没错,是Bert-vits2,没有之一。它是在本来已经极其强大的Vits项目中融入了Bert大模型,基本上解决了VITS的语气韵律问题,在效果非常出色的情况下训练的成本开销普通人也完全可以接受。 BERT的核心思想是通过在大规模文本语料上进行无监督预训练,学习到通用的语言表示,然后...
对于TTS模型来说使用音素表现会更好,但不使用字符会丢失一些信息,因此作者希望结合这两个输入,通过预训练语言模型来解决这个问题,这就是PnG BERT的idea。 2. Method PnG BERT模型如下图所示: 其中预训练模型为(a),可以看到和BERT没什么区别。 2.1 BERT ...
相比于gptsovits、fish-speech等新式TTS模型,有几个优势:1、由于模型小,因此合成速度快。做成接口以后,速度基本满足商业对话要求。2、经过微调后,音色稳定。 Fishspeech等模型,随机因素强,音色可能偏离,甚至发出没输入过的文本的声音。也有缺点:1、仅有3种语言。 2、代码存在诸多bug,需要自己修改。
诸公可知目前最牛逼的TTS免费开源项目是哪一个?没错,是Bert-vits2,没有之一。它是在本来已经极其强大的Vits项目中融入了Bert大模型,基本上解决了VITS的语气韵律问题,在效果非常出色的情况下训练的成本开销普通人也完全可以接受。 BERT的核心思想是通过在大规模文本语料上进行无监督预训练,学习到通用的语言表示,然后...
代码方面,VITS2模型的实现包括预处理、生成语音的过程,涉及文本分词、编码、预测持续时间和生成音频等步骤。OpenVoice代码实现了解耦框架,包括基本说话人TTS模型和音色转换器,以及训练和应用代码示例。BERT-VITS2则是在VITS2基础上增加BERT特征输入的文本到语音模型,改进了TextEncoder网络。VITS2、OpenVoice...
NLU就是基于我们的BERT模型,ASR用的是英伟达自己的Jasper和QuartzNet,TTS用的是WaveGlow模型。我们还在Megatron-BERT中采用了GPT2,使用了83亿的参数量,在8x A100上做了测试,用FP16加模型优化,结果显示Megatron-GPT2比V100在速度方面提升了2.5倍。所以,我们可以看到BERT模型现在的性能提升主要有两个方向:一是...
Bert-vits2的新版本V2.1在文本转语音(TTS)项目中,引入了对中英文混合推理(mix)的支持,特别适用于技术文档或视频领域,其中包含大量英文内容。尽管早期版本(2.0及以下)不支持英文训练和推理,更新后的模型允许在本地进行混合语言的推理处理。以流行歌手霉霉的音频为例,首先需要克隆项目并安装相关依赖...