语音合成,即文本转语音(TTS),是一项旨在将文本转换为自然人类语音的技术。近年来,随着大语言模型(如ChatGPT和Llama)的兴起,TTS技术在自然度和人机交互的便捷性方面取得了显著进展。与此同时,学术界和工业界对实现语音属性的精细控制(如情感、音调、音色和语速)产生了浓厚兴趣,推动了可控TTS技术的快速发展。
在人工智能的浪潮中,语音合成技术(Text-to-Speech, TTS)已经从简单的文本转语音工具,演变为能够生成自然、富有表现力语音的复杂系统。近年来,随着大语言模型(LLMs)和扩散模型(Diffusion Models)的崛起,T…