继续下拉到这个位置,选第二条命令,去除前面的#,在这条命令输入 --use_diff来加入扩散模型后选中这个命令框运行 接着选择编码器,选择第一个vec768l12 第七步训练扩散模型和主模型,先将文件目录退回到如图位置 然后点击加号创建终端,和前面一样的操作 找到训练的命令,第一条是训练扩散模型的命令,第二条是主模型训...
双击so-vits-svc文件夹里的启动webui.bat,会弹出一个网页。 选择模型文件。 需要选择主模型、主模型配置文件、扩散模型和扩散模型配置文件。 模型文件有的放了步数不同的两个,效果可能略微不同,请多多尝试。 点击加载模型文件夹复制位置正确的话So-vits 说话人位置会出现歌手名。 把准备好的干音拖进框框。 选择...
扩散模型与So-VITS模型是独立的,得益于浅扩散机制的向下兼容性,你仍然可以只使用其中任意一个模型进行推理,或者同时使用So-VITS和扩散模型进行完整的浅扩散推理。 关于浅扩散步数 完整的高斯扩散为 1000 步,当浅扩散步数达到 1000 步时,此时的输出结果完全是扩散模型的输出结果,So-VITS 模型将被抑制。浅扩散步数越...
在v2.3.6 之前的版本,浅扩散模型是训练完整 1000 步深度的,但在大多数情况下,推理时很少会用到完整深度扩散。可以只训练一个特定步数深度的浅扩散模型(“100步深度”,注意不等同训练时只训练100步,和训练步数是完全不同的概念),由此可以进一步加快浅扩散的训练速度。在理论和实践测试中,只训练部分步数浅扩散的模...
扩散模型预训练底模文件:model_0.pt 放在logs/44k/diffusion目录下 从svc-develop-team(待定)或任何其他地方获取 Sovits 底模 扩散模型引用了Diffusion-SVC的 Diffusion Model,底模与Diffusion-SVC的扩散模型底模通用,可以去Diffusion-SVC获取扩散模型的底模 ...
原因:v1 分支的模型用了 vec768 的配置文件,如果上面报错的 256 的 768 位置反过来了那就是 vec768 的模型用了 v1 的配置文件。 解决方法:检查配置文件中的 ssl_dim 一项,如果这项是 256,那你的 speech_encoder 应当修改为 vec256|9,如果是 768,则是 vec768|12 详细修改方法请参考 #2.1...
主模型训练 代码语言:shell 复制 python train.py -c configs/config.json -m 44k 扩散模型(可选), 尚若需要浅扩散功能,需要训练扩散模型,扩散模型训练方法为: 代码语言:shell 复制 python train_diff.py -c configs/diffusion.yaml 用tensorboard查看训练情况 代码语言:shell 复制 tensorboard --logdir logs/44k...
📝 模型简介 歌声音色转换模型,通过SoftVC内容编码器提取源音频语音特征,与F0同时输入VITS替换原本的文本输入达到歌声转换的效果。同时,更换声码器为 NSF HiFiGAN解决断音问题。 🆕 4.1-Stable 版本更新内容 特征输入更换为 Content Vec 的第12层Transformer输出,并兼容4.0分支 更新浅层扩散,可以使用浅层扩散模型提...
更新浅层扩散,可以使用浅层扩散模型提升音质 增加whisper 语音编码器的支持 增加静态/动态声线融合 增加响度嵌入 增加特征检索,来自于 RVC 🆕 关于兼容 4.0 模型的问题 可通过修改 4.0 模型的 config.json 对 4.0 的模型进行支持,需要在 config.json 的 model 字段中添加 speech_encoder 字段,具体见下 ...
📝 模型简介 歌声音色转换模型,通过SoftVC内容编码器提取源音频语音特征,与F0同时输入VITS替换原本的文本输入达到歌声转换的效果。同时,更换声码器为 NSF HiFiGAN 解决断音问题 🆕 4.0-Vec768-Layer12 版本更新内容 特征输入更换为 Content Vec 的第12层Transformer输出 更新浅层扩散,可以使用浅层扩散模型提升音质...