torchaudio.save('instruct.wav', output['tts_speech'], 22050) 以上分别测试 CosyVoice-300M-SFT、CosyVoice-300M、CosyVoice-300M-Instruct三个模型,效果都不错,尤其让人惊艳的是CosyVoice-300M的复制音色的能力。但因为模型更大了,相比之前的paddlespeech、chatTTS等工具生成音频耗时更长。 4. 使用webui启...
snapshot_download('iic/CosyVoice-300M-25Hz', local_dir='pretrained_models/CosyVoice-300M-25Hz') snapshot_download('iic/CosyVoice-300M-SFT', local_dir='pretrained_models/CosyVoice-300M-SFT') snapshot_download('iic/CosyVoice-300M-Instruct', local_dir='pretrained_models/CosyVoice-300M-Ins...
基座模型 CosyVoice-300M,支持 3s 声音克隆;经过SFT微调的模型 CosyVoice-300M-SFT,内置了多个训好的音色;支持细粒度控制的模型 CosyVoice-300M-Instruct,支持支持富文本和自然语言输入。 从模型架构图上,可以看出,文本输入侧,支持三种类型的输入。 最近大火的 ChatTTS 对比,CosyVoice 在内容一致性上更优,且少有...
CosyVoice 支持跨语种语音生成和细粒度的情感控制。 CosyVoice 使用 CosyVoice 预训练模型说明 CosyVoice-300M——基底模型 CosyVoice-300M-SFT——经过SFT微调的模型 CosyVoice-300M-Instruct——支持Instruct微调的模型 一般来说,如果没有特殊需求,则直接使用 CosyVoice-300M 基底模型。 代码调用(引入 CosyVoice ...
torchaudio.save('sft.wav', output['tts_speech'], 22050) cosyvoice = CosyVoice('speech_tts/CosyVoice-300M') # zero_shot usage prompt_speech_16k = load_wav('zero_shot_prompt.wav', 16000) output = cosyvoice.inference_zero_shot('收到好友从远方寄来的生日礼物,那份意外的惊喜与深深的祝福...
1、自然语言控制:使用inference_instruct 接口,对应CosyVoice-300M-Instruct模型,该模型不需要输入prompt音频和prompt文本。入参:预训练音色(sft_dropdown),如中文女、中文男等;instruct文本,需用户手工在界面上输入。 output = cosyvoice.inference_instruct(tts_text, sft_dropdown, instruct_text) ...
CosyVoice是阿里巴巴FunAudioLLM团队开发的一个高质量、多语言支持的语音生成模型。该项目提供了丰富的预训练模型,包括CosyVoice-300M、CosyVoice-300M-SFT和CosyVoice-300M-Instruct等,支持零样本学习、跨语言生成以及指令式语音合成等多种功能。 模型概览
研究团队提供了基模型CosyVoice-300M、经过SFT微调后的模型CosyVoice-300M-SFT、以及支持细粒度控制的模型CosyVoice-300M-Instruct,可满足不同场景下的使用需求。CosyVoice-300M本身具备一定从文本内容中推断情感的能力,经过细粒度控制训练的模型CosyVoice-300M-Instruct在情感分类中的得分更高,具备更强的情感控制能力...
研究团队提供了基模型CosyVoice-300M、经过SFT微调后的模型CosyVoice-300M-SFT、以及支持细粒度控制的模型CosyVoice-300M-Instruct,可满足不同场景下的使用需求。CosyVoice-300M本身具备一定从文本内容中推断情感的能力,经过细粒度控制训练的模型CosyVoice-300M-Instruct在情感分类中的得分更高,具备更强的情感控制能力...
cosyvoice = CosyVoice('speech_tts/CosyVoice-300M-SFT')# sft usageprint(cosyvoice.list_avaliable_spks()) output = cosyvoice.inference_sft('你好,我是通义生成式语音大模型,请问有什么可以帮您的吗?','中文女') torchaudio.save('sft.wav', output['tts_speech'],22050) ...