SPEAR-TTS将连续的语音波形映射为有限词汇的token序列,从而将语音合成问题转换为语言模型任务。通过在LibriTTS的551小时数据上预训练和回译,仅需要单说话人15分钟就可以生成发音较为准确的语音,在LibriSpeech test-clean上CER为1.92%,仅需3秒语音就可稳定复现目标说话人的音色,合成语音自然度高,MOS和真实语音基本相当。