这篇论文作者是starGanVC的作者,可信度还是挺高。 styletts并没有把vocoder集成到整个框架中,vocoder使用预训练好的hifigan。因此该模型算是标准的声学模型建模。声学模型建模中,论文采用了多种trick:两阶段练,f0工具和对齐工具参与finetune,对生成mel加判别器对抗训练,数据增强训练。 既然叫styletts,自然少不了如何去...
内容所属专栏 audioDL TTS/VC/SVC等 订阅专栏 TTS(text-to-speech) 音色克隆 AIGC 赞同129 条评论 分享喜欢收藏申请转载 写下你的评论... 9 条评论 默认 最新 ivcy lc nb 07-23· 北京 回复喜欢 哇哇哈哈哈 这个在中文上效果可以吗 06-04· 中国香港 ...
tts = TTS(model_name="voice_conversion_models/multilingual/vctk/freevc24", progress_bar=False).to("cuda") tts.voice_conversion_to_file(source_wav="my/source.wav", target_wav="my/target.wav", file_path="output.wav") Example voice cloning together with the voice conversion model. This wa...
我们使用 LibriTTS 训练集里的文本作为 SLM 对抗性训练的分布外(OOD)文本。我们在 LJSpeech 上使用 iSTFTNet 解码器,因为它在这个数据集上的速度和性能比较好,并且在 VCKT 和 LibriTTS 上使用 HifiGAN 模型。我们在 LJSpeech、VCTK 和 LibriTTS 数据集上对声学模块进行了100、50 和 30 个 epoch 的预训练,并...