需使用50条以上的1-5秒的语音进行微调。若用高质量语音数据,微调出来声音质量、推理速度、基本满足商业要求。 相比于gptsovits、fish-speech等新式TTS模型,有几个优势:1、由于模型小,因此合成速度快。做成接口以后,速度基本满足商业对话要求。2、经过微调后,音色稳定。 Fishspeech等模型,随机因素强,音色可能偏离,甚至...
然后是bert_gen的参数配置,将config_path设置为训练的配置文件config.json所在的路径,一般是“config/config.json”。如果有英伟达显卡,device设置为"CUDA",否则设置为"CPU"。我们打开bert-vits2-master下的config文件夹下的config.json文件。找到"data"字段内容如下: ...
需使用50条以上的1-5秒的语音进行微调。若用高质量语音数据,微调出来声音质量、推理速度、基本满足商业要求。 相比于gptsovits、fish-speech等新式TTS模型,有几个优势:1、由于模型小,因此合成速度快。做成接口以后,速度基本满足商业对话要求。2、经过微调后,音色稳定。 Fishspeech等模型,随机因素强,音色可能偏离,甚至...
一张至少4GB显存以上的英伟达显卡,并支持cuda11.8以上的版本; 16GB及以上的内存(如果你是16GB内存的Windows系统,运行该项目最好关闭其他软件以保证充足的内存空间)。 如果想部署本地大模型而非使用大模型API,那么请至少准备一张4080。目前Langchain-Chatchat以及本项目都不支持大模型INT4量化。
* 原因:显卡硬件或驱动故障,或者爆显存 * 解决方法:不要超频,更新(或回滚到稳定的版本)驱动。 * 爆显存解决方法:降低批大小。 ``` OSError: [WinError 1455] 页面文件太小,无法完成操作。 ``` * 原因:(虚拟)内存不足 * 解决方法:确保硬盘空间充足(通常是C盘),并让Windows自动分配虚拟内存,并降低训练全局...
本人运行设备:ubuntu22.04系统,V100显卡2张。项目可以在windows运行,但是所有的路径需要改成win格式。 经过修改后的无bug版本和代码已经发布在123云盘,注意,已经包含所有模型和预训练文件,还包含一次微调过的模型文件。使用了AIshell3的SSB0005说话人。因此,你可以从这里下载所有模型,然后上传到你的服务器。
下面的命令指定用显卡1,2进行双卡训练。 CUDA_VISIBLE_DEVICES=1,2 torchrun --nproc_per_node=2 train_ms.py -c A5_finetuned_trainingout/SSB0005/config.json \ -m A5_finetuned_trainingout/SSB0005 \ -mb A1_pretrained_models/Bert-VITS2_2.3 3.8 微调推理 在文件 A31_singleinfer.py 修改 ...
本人运行设备:ubuntu22.04系统,V100显卡2张。项目可以在windows运行,但是所有的路径需要改成win格式。 经过修改后的无bug版本和代码已经发布在123云盘,注意,已经包含所有模型和预训练文件,还包含一次微调过的模型文件。使用了AIshell3的SSB0005说话人。因此,你可以从这里下载所有模型,然后上传到你的服务器。
本人运行设备:ubuntu22.04系统,V100显卡2张。项目可以在windows运行,但是所有的路径需要改成win格式。 经过修改后的无bug版本和代码已经发布在123云盘,注意,已经包含所有模型和预训练文件,还包含一次微调过的模型文件。使用了AIshell3的SSB0005说话人。因此,你可以从这里下载所有模型,然后上传到你的服务器。