语音合成大模型综述

2025-02-27 18:41:37

拼音 [ 拼音 ]

在大模型(LLM)时代的可控语音合成(TTS)综述

语音合成，即文本转语音（TTS），是一项旨在将文本转换为自然人类语音的技术。近年来，随着大语言模型（如ChatGPT和Llama）的兴起，TTS技术在自然度和人机交互的便捷性方面取得了显著进展。与此同时，学术界和工业界对实现语音属性的精细控制（如情感、音调、音色和语速）产生了浓厚兴趣，推动了可控TTS技术的快速发展。
在大模型(LLM)时代的可控语音合成(TTS)综述 - 知乎

在人工智能的浪潮中,语音合成技术(Text-to-Speech, TTS)已经从简单的文本转语音工具,演变为能够生成自然、富有表现力语音的复杂系统。近年来,随着大语言模型(LLMs)和扩散模型(Diffusion Models)的崛起,T…