关键词: Glow-TTS,生成流,文本到语音,并行TTS,单调对齐,流的特性,自回归TTS,Tacotron 2,合成语音,多说话人。 1. 引言 文本到语音(Text-to-Speech,TTS)是从文本生成语音的任务,基于深度学习的TTS模型已成功产生了与人类语音无法区分的自然语音。在神经网络TTS模型中,自回归模型如Tacotron 2(Shen等,2018)或Transf...
发表论文截图 01背 景动机 由于文本和语音音频在时间分辨率上的巨大差异,大多数方法将 TTS 过程分为两个阶段,即声学模型和声码器。声学模型首先通过给定的字符或音素序列生成帧级中间表示,而声码器通过中间表示生成音频。尽管最近随着深度学习的应用,声学模型和神经声码器方面取得了较大进展,但是这两个阶段之间仍然存...
WaveGAN模块通过波形重构学习潜在的语音表征,Glow-TTS模块将输入文本映射到由WaveGAN模块抽取的语音隐层表征。VAE用于提取语音表征并重建音频,同时添加GAN以提高音频质量。引入音调预测作为辅助任务,进一步增强了潜在表示的鲁棒性。最后,基于流的声学模型Glow-TTS用于学习从编码器中提取的潜在表示Z的分布。实验...
基于Transformer的TTS模型已是现在主流的End-to-End TTS系统的baseline,它的实现必不可少,而且因为Transformer本身优异的结构,也能大大加快实验的速度。 图9. Transformer-TTS 系统架构 当前SOTA!平台收录 Transformer-TTS 共 1 个模型实现资源。 Glow-TTS是一个不需要任何外部对齐处理的基于流的并行TTS生成模型。GLow...
图1 发表论文截图 背景动机 近几年,随着基于序列到序列(seq2seq)的声学模型的快速发展,语音合成(TTS)和语音转换(VC)的效果取得了显著的提升。但通常高质量语音生成任务都依赖于大量录音棚录制的高质量训练数据,因此基于零资源的语音合成任务受到了大家的关注。零资源(zero-shot)语音合成任务只需要特定说话人的一句录...
而 ClariNet则是完全打通了从文本到原始音频波形的端到端训练,实现了对整个 TTS 系统的联合优化,比起分别训练的模型,在语音合成的自然度上有大幅提升。另外,ClariNet 是全卷积模型,训练速度比起基于循环神经网络(RNN)的模型要快 10 倍以上。 图7 (a) 文本到波形模型将文本特征转换为波形。所有的组件都直接将...
论文地址:https://arxiv.org/abs/2005.11129 相关代码(官方):https://github.com/jaywalnut310/glow-tts Demo:https://jaywalnut310.github.io/glow-tts-demo/index.html 摘要 Glow TTS是一个基于标准化流的并行化语音生成模型。它不像类似FastSpeech一样,需要一个“老师”模型预先学习对齐信息,而是通过单调对齐...
论文题目:Glow-WaveGAN: Learning Speech Representations from GAN-based Variational Auto-Encoder For High Fidelity Flow-based Speech Synthesis 1. 背景动机 由于文本和语音音频在时间分辨率上的巨大差异,大多数方法将 TTS 过程分为两个阶段,即声学模型和声码器。声学模型首先通过给定的字符或音素序列生成帧级中间表...
论文题目:Glow-WaveGAN: Learning Speech Representations from GAN-based Variational Auto-Encoder For High Fidelity Flow-based Speech Synthesis 1. 背景动机 由于文本和语音音频在时间分辨率上的巨大差异,大多数方法将 TTS 过程分为两个阶段,即声学模型和声码器。声学模型首先通过给定的字符或音素序列生成帧级中间表...